Step Reasoner mini：階躍星辰的 AI 推理新星

AI百科 2025-01-18 08:57:22 奇想AI導(dǎo)航網(wǎng)

一、模型發(fā)布

階躍星辰于 2025 年 1 月 16 日重磅推出其自主研發(fā)的推理模型 Step Reasoner mini（簡(jiǎn)稱 Step R - mini）。此模型作為 Step 系列模型家族的先鋒，具備獨(dú)一無二且出類拔萃的能力。

二、模型能力

擅長(zhǎng)邏輯處理與規(guī)劃反思
- 此模型善于主動(dòng)規(guī)劃、嘗試以及反思。不論是應(yīng)對(duì)數(shù)學(xué)問題、邏輯推理難題，還是進(jìn)行文學(xué)創(chuàng)作任務(wù)，都會(huì)依據(jù)任務(wù)需求率先制定規(guī)劃。當(dāng)存在多種解題途徑或創(chuàng)作方案時(shí)，它會(huì)積極嘗試不同選擇。在這一過程中，通過模擬人類的慢思考過程，并借助反復(fù)驗(yàn)證的機(jī)制，對(duì)每一步驟或結(jié)果進(jìn)行多次校驗(yàn)，例如反復(fù)檢查答案或者優(yōu)化創(chuàng)作內(nèi)容等，從而為用戶呈上精準(zhǔn)可靠的回復(fù)。
文理兼修能力突出
- 理科能力：在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)卓越。于 AIME（美國(guó)數(shù)學(xué)邀請(qǐng)賽）和 Math 等數(shù)學(xué)基準(zhǔn)測(cè)試中，成績(jī)超越了 o1 - preview，與 OpenAI 的 o1 - mini 旗鼓相當(dāng)，足見其解決復(fù)雜數(shù)學(xué)問題的強(qiáng)大能力。在 LiveCodeBench 代碼任務(wù)方面，同樣優(yōu)于 o1 - preview，這表明它在代碼編寫、解決代碼邏輯或者算法任務(wù)時(shí)的出色表現(xiàn)。在實(shí)際應(yīng)用場(chǎng)景中，諸如處理 LeetCode 技術(shù)平臺(tái)上難度評(píng)級(jí)為 Hard 的算法題能夠正確解答，并且能夠應(yīng)對(duì)復(fù)雜開發(fā)需求，通過逐步剖析用戶需求和意圖，構(gòu)建正確的代碼邏輯等。
- 文科能力：在文學(xué)創(chuàng)作等通用領(lǐng)域亦有上佳表現(xiàn)。它能夠承接文學(xué)創(chuàng)作任務(wù)，深度領(lǐng)會(huì)用戶的表達(dá)需求，從創(chuàng)作主題、文學(xué)體裁等方面展開全方位的思考。比如在創(chuàng)作過程中斟酌創(chuàng)作角度、描繪的景物、修辭手法、內(nèi)容結(jié)構(gòu)，賦予事物人類情感層面的象征意義，并增添個(gè)性化的、創(chuàng)新的表達(dá)風(fēng)格，展現(xiàn)出在文科領(lǐng)域的創(chuàng)作能力與理解能力。同時(shí)在日常聊天任務(wù)中，也能出色地理解用戶意思并給予合理反饋，將文理能力完美融合。

三、模型特點(diǎn)

獨(dú)特的邏輯機(jī)制與優(yōu)秀的測(cè)試表現(xiàn)
- 基于慢思考和反復(fù)驗(yàn)證的邏輯機(jī)制：Step Reasoner mini 的顯著特色之一便是擅長(zhǎng)主動(dòng)規(guī)劃、嘗試和反思。在處理各類任務(wù)時(shí)，例如數(shù)學(xué)題或者邏輯推理題，它采用類似于人類的慢思考模式。比如在解答邏輯推理任務(wù)時(shí)，會(huì)自主進(jìn)行多種解題思路的嘗試，這是主動(dòng)規(guī)劃和嘗試多種可能性的體現(xiàn)。在得出初步答案后，會(huì)自我反問是否存在其他可能性，確保枚舉出所有效果良好的解決方案并檢查有無遺漏，這就是反復(fù)驗(yàn)證的過程。這種機(jī)制能夠讓模型在復(fù)雜任務(wù)中提供更準(zhǔn)確、全面的答案。
- 在基準(zhǔn)測(cè)試中成績(jī)優(yōu)異：在眾多基準(zhǔn)測(cè)試?yán)镎蔑@出強(qiáng)大實(shí)力。在 AIME 和 Math 等數(shù)學(xué)基準(zhǔn)測(cè)試上，成績(jī)超過了 o1 - preview 并且達(dá)到了與 OpenAI 的 o1 - mini 并駕齊驅(qū)的水準(zhǔn)。在 LiveCodeBench 代碼任務(wù)方面的效果也勝過 o1 - preview。例如，在實(shí)際解答數(shù)學(xué)問題的場(chǎng)景中，當(dāng)遭遇奧數(shù)難題時(shí)，能夠像專業(yè)數(shù)學(xué)家一樣構(gòu)建合理的推理鏈，實(shí)現(xiàn)從復(fù)雜數(shù)學(xué)問題的規(guī)劃到逐步求解的過程，并且會(huì)枚舉不同的解法方案交叉驗(yàn)證；在處理幾何題目時(shí)，甚至能主動(dòng)通過畫草圖這種方式構(gòu)建深度思考的內(nèi)容介質(zhì)，顯示出其邏輯解釋性和深度思考能力。
文理均衡發(fā)展的能力架構(gòu)
- 大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練與文理兼修的能力：通過大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練，并運(yùn)用同策略強(qiáng)化學(xué)習(xí)算法 On - Policy 達(dá)成了文理兼修的獨(dú)特成效。在眾多推理模型中，隨著訓(xùn)練參數(shù)規(guī)模增加，往往會(huì)出現(xiàn)文科能力提升則理工科能力下滑這種不平衡的現(xiàn)象，但 Step Reasoner mini 成功克服了這一難題。其既能精確解答數(shù)學(xué)、代碼、邏輯推理等理工科性質(zhì)的問題，又能富有創(chuàng)意地完成文學(xué)內(nèi)容創(chuàng)作、日常聊天等文科類的任務(wù)。比如創(chuàng)作類任務(wù)時(shí)，能夠深入理解用戶對(duì)于創(chuàng)作主題、文學(xué)題材的要求后，進(jìn)行深度創(chuàng)作思考，元素涉及創(chuàng)作角度、描繪的景物、修辭手法、內(nèi)容結(jié)構(gòu)等多個(gè)文學(xué)創(chuàng)作要素的思考，還能賦予事物情感象征意義、個(gè)性化表達(dá)及創(chuàng)新風(fēng)格等。

四、模型應(yīng)用場(chǎng)景

學(xué)術(shù)與專業(yè)領(lǐng)域
- 數(shù)學(xué)與邏輯推理問題求解：
  - 在學(xué)術(shù)學(xué)習(xí)方面，學(xué)生或者研究人員在面對(duì)數(shù)學(xué)難題時(shí)，例如數(shù)學(xué)競(jìng)賽中的復(fù)雜題目，像 AIME（美國(guó)數(shù)學(xué)邀請(qǐng)賽）中的題目類型等，Step Reasoner mini 能夠構(gòu)建合理的推理鏈進(jìn)行求解。在處理邏輯推理問題時(shí)，無論涉及的是邏輯關(guān)系復(fù)雜的數(shù)學(xué)邏輯題，還是需要推理人物關(guān)系、事件先后順序等普通邏輯推理類型的題目，它都能運(yùn)用其擅長(zhǎng)主動(dòng)探索多種解題思路的能力，對(duì)問題進(jìn)行仔細(xì)分析，得出較為準(zhǔn)確的結(jié)論。例如，對(duì)于一些需要高邏輯性的學(xué)科作業(yè)或者研究課題的邏輯部分，它可以輔助快速提供解決方案。
  - 在專業(yè)領(lǐng)域，如代碼開發(fā)方面，開發(fā)者遇到 LeetCode 技術(shù)平臺(tái)上難度評(píng)級(jí)為 Hard 的算法題或者需要處理復(fù)雜開發(fā)需求時(shí)，它能夠逐步分析用戶需求和意圖，構(gòu)建正確的代碼邏輯，像是在復(fù)雜的算法設(shè)計(jì)、軟件架構(gòu)邏輯分析等場(chǎng)景下提供有價(jià)值的參考建議或者直接給出可行的代碼解決方案。這對(duì)于編寫高效、復(fù)雜的代碼功能邏輯模塊十分有用。
文學(xué)創(chuàng)作與日常交流互動(dòng)
- 文學(xué)創(chuàng)作的輔助與創(chuàng)意生成：
  - 在文學(xué)創(chuàng)作方面，對(duì)于需要?jiǎng)?chuàng)作不同文學(xué)題材的寫作者，無論是詩歌、散文、故事創(chuàng)作等，它都能夠深入理解創(chuàng)作者對(duì)于主題、文學(xué)題材的要求。例如根據(jù)用戶要求創(chuàng)作一首抒情詩，模型可以思考創(chuàng)作角度，如從個(gè)人情感的細(xì)膩之處入手，描繪景物來烘托情感，再選擇合適的修辭手法像比喻、擬人等來豐富詩歌內(nèi)涵，構(gòu)建合理的內(nèi)容結(jié)構(gòu)，并且能夠賦予事物人類情感層面的象征意義，比如將月亮象征團(tuán)圓等情感意義。還可以增加個(gè)性化的、創(chuàng)新的表達(dá)風(fēng)格，讓文學(xué)作品在傳統(tǒng)優(yōu)秀創(chuàng)作模式基礎(chǔ)上加入新鮮元素，促進(jìn)文學(xué)創(chuàng)作活動(dòng)。
  - 在日常聊天對(duì)話場(chǎng)景中，它能夠很好地理解用戶的提問、陳述內(nèi)容并給予合適回復(fù)。無論是進(jìn)行日常文化知識(shí)交流、分享觀點(diǎn)等場(chǎng)景下，都能像與朋友聊天一般自然地互動(dòng)并提供有趣有深度的回應(yīng)?？梢耘c用戶共同探討一部小說的情節(jié)解讀，電影的藝術(shù)表現(xiàn)形式等，提供豐富的想法和觀點(diǎn)交流。

五、模型比較

綜合能力對(duì)比
- 性能超越部分模型：在數(shù)學(xué)基準(zhǔn)測(cè)試（AIME 和 Math）上，Step Reasoner mini 的成績(jī)已然超越了 o1 - preview。在代碼任務(wù)測(cè)試（LiveCodeBench）上，同樣比 o1 - preview 效果更優(yōu)。這清晰地展現(xiàn)出在數(shù)學(xué)與代碼的處理能力方面，相較于 o1 - preview 有著顯著的優(yōu)勢(shì) 。
- 與優(yōu)秀模型表現(xiàn)持平：與 OpenAI 的 o1 - mini 相較，在 AIME 和 Math 等數(shù)學(xué)基準(zhǔn)測(cè)試中成績(jī)相當(dāng)，說明在處理數(shù)學(xué)問題的能力方面已經(jīng)達(dá)到了和 o1 - mini 類似的水平，在智慧、邏輯推理能力的某些衡量標(biāo)準(zhǔn)下，具備和 o1 - mini 競(jìng)爭(zhēng)的實(shí)力。
文理能力均衡性對(duì)比
- 在文理兼修方面的優(yōu)越性：大多數(shù)推理模型，隨著訓(xùn)練參數(shù)規(guī)模增加時(shí)很難兼顧文理科兩個(gè)方向的能力。它們往往在文科能力提升的時(shí)候，會(huì)損失理工科能力的確定性。而 Step Reasoner mini 通過特定的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練和 On - Policy（同策略）強(qiáng)化學(xué)習(xí)算法成功實(shí)現(xiàn)了文理兼修。例如，既能夠解答邏輯推理、代碼、數(shù)學(xué)等理工科領(lǐng)域的專業(yè)問題，同時(shí)又可以充滿創(chuàng)意地完成文學(xué)創(chuàng)作、日常交流聊天等文科性質(zhì)的任務(wù)，這在文理能力平衡方面較其他多數(shù)模型具有很大優(yōu)勢(shì)，適用性更廣，不會(huì)出現(xiàn)只是文科或只是理科能力突出而在其他方面短板明顯的情況。

六、使用方法

訪問平臺(tái)及初步操作
- 平臺(tái)入口：據(jù)當(dāng)前消息，Step Reasoner mini 已在躍問網(wǎng)頁端全量開放，用戶可通過此網(wǎng)頁端進(jìn)行訪問。不過目前尚未有更多關(guān)于是否有手機(jī)端應(yīng)用等其他訪問方式的消息披露。
- 基本交互方式：訪問網(wǎng)頁端平臺(tái)后進(jìn)入交互界面。如同其他語言模型交互場(chǎng)景，用戶可以以文字形式輸入自己的問題或者需求。例如用戶想要它解決一道數(shù)學(xué)難題或者創(chuàng)作一首詩歌，只要清晰地以文字表達(dá)出具體需求內(nèi)容即可，模型就會(huì)依據(jù)所輸入的內(nèi)容進(jìn)行處理。
根據(jù)任務(wù)類型的輸入要點(diǎn)
- 解答專業(yè)問題時(shí)的輸入：
  - 在需要解答數(shù)學(xué)或者邏輯推理等專業(yè)問題時(shí)，為了模型能夠準(zhǔn)確提供有效解答，最好盡可能將題目或問題陳述清楚。比如對(duì)于數(shù)學(xué)題，不僅要輸入題意內(nèi)容，還需要明確已知條件、所求結(jié)果等內(nèi)容信息。例如在輸入一個(gè)幾何題時(shí)，要準(zhǔn)確表述圖形的形狀特征、已知邊長(zhǎng)或者角度等詳細(xì)信息；對(duì)于邏輯推理題要把人物關(guān)系、事件先后順序等已知邏輯元素完整表達(dá)。
  - 在代碼開發(fā)需求方面，如果需要要求模型構(gòu)建一段代碼，要說明需求的功能，例如是實(shí)現(xiàn)對(duì)文件的排序功能、網(wǎng)絡(luò)數(shù)據(jù)交互功能等，還有輸入輸出要求等編程元件相關(guān)的基本信息。
- 獲取文學(xué)創(chuàng)作與日常聊天時(shí)的輸入：
  - 在文學(xué)創(chuàng)作請(qǐng)求時(shí)，需要明確創(chuàng)作的主題方向、文學(xué)體裁要求。例如，如果希望得到一篇關(guān)于愛情的散文，就要輸入明確的 “愛情” 主題和 “散文” 這種體裁。若想讓創(chuàng)作內(nèi)容有更多的特殊要求，如特定的情感氛圍、修辭手法、結(jié)構(gòu)形式等，也可以盡可能詳細(xì)地在輸入內(nèi)容中表述出來。
  - 在日常聊天場(chǎng)景下，自然地輸入想要交流的內(nèi)容就可以，例如表達(dá)觀點(diǎn)、分享日常經(jīng)歷或者提出感興趣的話題等，模型就會(huì)根據(jù)輸入的聊天內(nèi)容進(jìn)行相應(yīng)的回應(yīng)。