馬斯克:grok 3大模型發(fā)布
一、核心性能升級(jí)
Grok 3 借助全球最大的 AI 超算集群「Colossus」訓(xùn)練,第一階段用 10 萬(wàn)塊英偉達(dá) H100 GPU,第二階段達(dá) 20 萬(wàn)塊,算力提升 10 倍,預(yù)訓(xùn)練僅 122 天完成,創(chuàng)工程效率新紀(jì)錄。
在基準(zhǔn)測(cè)試中表現(xiàn)出色:
-
數(shù)學(xué)(AIME'24):52 分,優(yōu)于 DeepSeek-V3 的 39 分和 GPT-4o 的 9 分。
-
科學(xué)(GPQA):75 分,高于 DeepSeek-V3 的 65 分和 GPT-4o 的 50 分。
-
編程(LCB):57 分,領(lǐng)先 DeepSeek-V3 的 36 分和 GPT-4o 的 34 分。
-
盲測(cè)(lmArena):以 1402 分居首,首個(gè)突破 1400 分。
二、技術(shù)亮點(diǎn)
-
思維鏈推理(Chain of Thought)
引入分步解決問(wèn)題邏輯,提升復(fù)雜任務(wù)處理能力,如生成航天器軌跡代碼、開發(fā)融合游戲。 -
多模態(tài)與自我糾錯(cuò)
能分析圖像、視頻、3D 建模,用合成數(shù)據(jù)訓(xùn)練降錯(cuò),強(qiáng)化學(xué)習(xí)優(yōu)化決策。 -
BigBrain 模式
提供深度思考推理,反復(fù)驗(yàn)證提高答案準(zhǔn)確性。
三、應(yīng)用場(chǎng)景
-
行業(yè)接口優(yōu)化
為金融、醫(yī)療、自動(dòng)駕駛等推出專用模型接口,提升垂直場(chǎng)景性能。 -
深度搜索(DeepSearch)
新型搜索引擎,整合互聯(lián)網(wǎng)和 X 平臺(tái)數(shù)據(jù),生成摘要并溯源,媲美 Perplexity 的 DeepResearch。 -
游戲開發(fā)
xAI 擬成立 AI 游戲工作室,Grok 3 已能自動(dòng)生成游戲代碼。
四、行業(yè)對(duì)比與爭(zhēng)議
-
與 DeepSeek 的性價(jià)比爭(zhēng)議
Grok 3 高成本訓(xùn)練,DeepSeek 算法優(yōu)化成本低,更具商業(yè)化潛力。 -
市場(chǎng)反饋
Andrej Karpathy 評(píng)測(cè)指出,Grok 3 推理能力接近 ChatGPT o1-pro,略優(yōu) DeepSeek-R1,但有編造信息問(wèn)題。
五、獲取方式與未來(lái)計(jì)劃
-
訂閱:X Premium + 會(huì)員(22 美元 / 月)優(yōu)先體驗(yàn),將推 SuperGrok 版。
-
開源:數(shù)月后開源 Grok 2,下一代模型研發(fā)已啟動(dòng)。
-
語(yǔ)音模式:預(yù)計(jì)一周內(nèi)上線,API 接口和游戲工作室功能未來(lái)幾周推出。