星火深度推理模型X1的概述
星火深度推理模型X1是科大訊飛于2025年1月15日發布的一款大模型。它是國內首個基于全國產算力平臺訓練的具備深度思考和推理能力的大模型。
在具體的展示中,科大訊飛研究院的研究員們通過讓訊飛星火X1解答高考題、AIME競賽題以及高中奧賽題等方式展示其性能,它不僅能夠準確給出答案,還能對解題思路和步驟進行詳細拆解。例如在數學方面,它覆蓋小學、初中、高中、大學全學段數學,輸入或拍照輸入數學題目等復雜問題都能進行解答。并且,該模型的中文數學能力在國內處于領先地位。此外,訊飛星火X1還體現了深度推理模型的三大典型特征:化繁為簡,將復雜問題分步拆解簡化;進行自我探索和反思驗證;基于答案正確與否的優質反饋信息進行強化訓練。
星火深度推理模型X1的特點
基于全國產算力平臺訓練
星火深度推理模型X1的一大特點是基于全國產算力平臺訓練。這一過程面臨諸多挑戰,如訓練推理強交互、高吞吐推理優化以及國產算子優化等問題。科大訊飛與華為合作成功攻克了這些難題,才最終訓練得到這個模型。如此一來,這個模型標志著國產算力在大模型訓練領域的新突破,使中國在人工智能領域的自主性和可控性得到了進一步提升,擺脫了對國外算力技術的依賴。
接近人類的慢思考解題方式
該模型的解題過程更接近人類的慢思考方式。與通用大模型相比差異明顯,在解答題目過程中,它不是簡單地直接給出結果,而是像人類思考問題一樣,逐步推進。比如在解答數學題目時,它會展現推理邏輯,從分析條件、運用原理到得出結論的整個過程,就像一個學生在認真做解題步驟一樣。例如面對大學生數學案例題,它回答邏輯嚴密,能夠根據題干進行預設,并且注釋清晰。對于小學生常見問題“1 + 1為什么等于2?”,它根據自然數的定義、定義加法運算以及應用定義計算得出結果,不過對小學生理解來說可能有些抽象。
表現能力優秀且用更少的算力
訊飛星火X1在多項考試中成績亮眼,如小初高(含競賽)、大學(含競賽)、AIME、MATH500等。并且它以較少的算力,就實現了業界一流的效果,多項指標處于國內領先的地位。這不僅體現了其高效的運算能力,也顯示出模型在設計和算法優化上的優勢,能夠在硬件資源有限的情況下發揮出強大的推理和解決問題的能力,降低了運行成本,提高了使用效率,在模型性能與資源利用之間找到了較好的平衡。
具備深度推理的三大典型特征
一是化繁為簡,它可以將復雜的問題進行分步拆解簡化。這有助于對于一些大型、復雜問題進行細化處理,轉化為一個個小的、易于解決的子問題,例如對于復雜的數學證明題或者多步驟的應用題,它按照步驟一點一點深入分析,使解答過程更有條理。二是進行自我探索和反思驗證,在接受問題后,模型能夠自主探索解題思路,并在得到初步結果后進行反思驗證,從而保證答案的準確性。三是基于答案正確與否的優質反饋信息進行強化訓練,這一特征使模型能夠不斷地進化、提升自身的能力,根據之前問題回答的情況調整策略,變得更加智能和準確。
星火深度推理模型X1的應用場景
教育領域的應用
該模型率先在教育場景落地,有著廣泛的應用意義。首先,在之前科大訊飛聯合中國教育科學研究院發布基于“問題鏈”的高中數學智能教師助手過程中,已經開始部署星火X1,并且已經得到了眾多教研員和老師的好評。例如一些老師反饋,使用該模型輔助教學后,數學解題的推理過程和思路對于教學變得更加清晰了。其次,對于學生來說,在產品應用到訊飛AI學習機等設備之后,將對孩子學習的診斷和推薦指導更加精準。可以根據每個學生不同的學習情況,進行有針對性的輔導。例如提供個性化的學習方案,針對學生的錯題分析知識點漏洞,進而推薦適合補充知識內容的練習習題等,從而更好地實現因材施教,并且這種能力還會隨著技術的融入持續升級。
醫療領域的應用
在醫療領域,星火深度推理模型X1的模型策略已經取得了初步驗證成效。它可使得專科輔助診斷和復雜病歷內涵質控的準確率均達90%,例如在四川大學華西醫院的呼吸內科、骨科等科室以及與北京安貞醫院的合作項目中均有很好的表現。在華西醫院,依托訊飛星火醫療大模型的技術優勢和X1算法的系統,在處理診療行為記錄、手術術式質控等復雜質控任務的準確率已經達到90%,顯著提升了質控人效及復雜內容質控效果;與北京安貞醫院合作的多模態大模型心臟超聲診斷決策系統,也展示了訊飛星火X1在醫療領域提高診斷效率和質量方面的潛力。科大訊飛還宣布將在2025年上半年發布基于訊飛星火X1的醫療大模型升級版,以確保其深層次診斷推理效果和質控能力繼續保持業界領先的地位,從而進一步推動整個醫療行業向智能化發展。
對企業的輔助作用
企業在日常辦公中往往面臨著大量的數據處理、信息提供、數學計算等多方面工作內容,訊飛星火X1的數學能力能夠助力數學有關的工作,如金融分析中的風險評估計算、科研推演中的數據模型分析。企業中的大量文檔需要進行處理,無論是圖文識別還是長文本能力的提升都有助于企業對文檔類資料的整理,這也是科大訊飛星火4.0Turbo升級的方向,目前它在基礎數學能力、圖文識別能力和長文本能力等多方面能力指標提升顯著,圖文識別能力的升級也能有效處理企業合同等文檔,并大幅提升高價值數據的獲取能力,在一定程度上可以幫助提高企業的辦公效率和決策準確性。
星火深度推理模型X1與其他模型的比較
和通用大模型相比
-
解題過程的差異:星火深度推理模型X1的解題過程更接近人類的慢思考方式,而常見的通用大模型可能更側重于基于大量數據的模式識別得出結果,相對缺乏這種類似人類由步驟導向得出答案的過程。比如在數學題目解答中,星火深度推理模型X1不僅給出答案,更注重邏輯推理步驟,通用大模型可能只是給出答案而缺少詳細的思考推理過程闡述。
-
算力需求方面:星火深度推理模型X1可以用更少的算力實現業界一流的效果并且多項指標國內第一,而一些通用大模型可能需要更高的算力資源消耗來達到較好的性能表現,這反映了星火深度推理模型X1在優化算法、數據利用效率等方面的獨到之處。
和國外同類型模型相比
-
本地化優勢:訊飛星火X1基于全國產算力平臺訓練,針對國內教育、醫療等場景應用效果良好且表現出獨特優勢,例如中文數學能力國內第一。由于國外模型在開發基準、針對群體等方面與國內不同,所以星火深度推理模型X1對于國內市場的特定需求、中文語境下的語義理解等方面存在獨特的優勢。并且在涉及國家安全、民族性等因素下,使用國內自主研發的模型在數據保密、符合國情的服務等方面更有保障。
-
行業針對性方面:可能國外的模型更多傾向于國際化的商業布局、跨領域通用性,而星火深度推理模型X1已經開始明確地在教育、醫療這類關乎國計民生且具有專業數據積累需求的行業中進行具體深入的應用探索,特別是在醫療領域內復雜病歷內涵質控、專科輔助診斷等方面已經初步驗證其成效,具有很強的行業針對性的先發優勢。
如何使用星火深度推理模型X1
通過合理提問方式輸入問題
當使用星火深度推理模型X1時,需要采用合適的提問方式,特別是在數學領域。從已有的測試案例來看,對于有明確解題指向的數學問題,模型能很好地應對。例如輸入明確的數學題目,如中小學常見的數學應用題或者大學的數學解題題目類型等,模型都可以接受輸入并進行解答。但要注意問題的表達要盡可能清晰,以利于模型準確理解需求,如果是拍照輸入數學題目的情況可能還需要確保圖片清晰度等因素不會影響識別準確性,像大模型之家在測試中如果題目過長或者表述不清時它有時會提示換題嘗試等情況。
利用其在多領域的落地應用
如果是教育工作者或者學生,可以利用它在教育領域的應用。像它已經應用在一些輔助教學工具中,如科大訊飛聯合中國教育科學研究院發布的基于“問題鏈”的高中數學智能教師助手就已經有所集成,那么可以使用此類工具,間接接入模型能力來輔助教學或者學習。在醫療方面,隨著基于該模型的醫療大模型不斷升級完善,醫療人員可以通過與之相配套的醫療診斷系統等工具,將患者病例等數據輸入相關系統中,借助模型進行分析輔助診斷等操作。
等待更廣泛的應用拓展
目前雖然已經在教育、醫療等場景初步落地應用,但是隨著科大訊飛等公司的持續開發推廣,相信未來會有更多的途徑和方法來方便用戶使用這個模型。例如它可能會整合到更多的智能硬件設備中,或者在更多企業場景下開發針對性的應用接入該模型,進而拓展使用方式和場景。并且可能隨著時間推移,用戶對于它的使用會越來越簡便化,就像目前大模型普遍隨著版本升級不斷優化交互界面和操作方式一樣。