熱門資訊> 正文
2025-07-13 10:13
本文來自格隆匯專欄:中信證券研究 作者:楊澤原 丁奇 馬慶劉
Grok 4專業學科和複雜任務上的推理能力突出,展現未來模型在長流程專業工作上的應用潛力,支持Agent落地高價值場景,結合后續多模態能力有望突破打開全新應用場景,行業落地對應帶動AI Infra和算力需求,建議關注相關領域重點公司的投資機會。
▍事項:Grok 4正式發佈並開放使用。
北京時間7月10日,XAI發佈新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy兩個版本,在專業學科任務推理上性能提升。模型B端API定價輸入3美元/百萬Tokens,輸出15美元/百萬Tokens,較o3大約貴50%。C端30美元/月的訂閲會員即可使用Grok 4,高推理算力投入的Grok-4 Heavy版本則需要300美元/月的會員費用纔可以使用。
▍重點升級專業學科和複雜任務的推理能力。
Grok 4在專業學科和商業環境推理等複雜任務中表現大幅超越此前最佳(SOTA)的模型,在知識能力上已經超越本科生和研究生水平,正在全領域快速縮小與人類頂級專家的差距。
1)HLE:在各學科專家編寫的高難度學術測試集Humanity's Last Exam(HLE)測試集中,Grok-4在不使用工具的情況下正確率為26.9%,使用工具的情況下為41.0%,在推理階段加大RL算力投入后可進一步提升到50.7%,較此前的SOTA模型21.6%的水平翻倍增長。
2)Vending-Bench:在衡量複雜任務解決能力的商業環境測試Vending-Bench中,Grok-4得分是第二名Claude Opus 4的兩倍,模型正朝着解決真實複雜問題的方向邁進。
3)其他:在GPQA、AIME25、HMMT 25、USAMO 25等專業學科知識測試集上,Grok 4 Heavy在其中4項奪冠,尤其在 AIME25與HMMT25 分別獲得100% /96.7%的接近滿分表現。
▍推理能力發展帶動算力需求,技術創新為后續模型推理提效帶來新思路。
訓練側,Grok 4較Grok 2訓練量提升了100倍,較Grok-3在后訓練強化學習上的計算量提升10倍。推理側,和OpenAI o3-high相似,Grok 4 Heavy通過提高強化學習的算力投入提升模型效果,驗證Test time computing的有效性。以強化學習為基礎的推理能力在訓推兩端同步帶動算力投入提升,並且根據ARC-AGI v2測試結果顯示,Grok 4推理性價比(單位成本下的推理效率)顯著高於此前所有模型。技術方面,本次Grok 4的工程創新包括兩點:1)驗證工具使用能力對推理性能的重要價值,通過在預訓練階段讓模型學習使用工具,模型推理場景實際表現大幅提升;2)在后訓練強化學習中找到了可靠的獎勵信號方案。Grok 4的創新體現了推理能力依然是產業焦點和未來方向,工程探索為后續模型推理能力升級提供新的思路。
▍更新對話靈活、情感細膩的語音交互,多模態是后續更新計劃的重點。
Grok 4發佈新語音助手Eve,對話延迟降低一半,每日用户使用時長提升10倍。在現場演示中,新語音助手的對話音色、音調、語氣與真人高度相似,具備模仿耳語或者演唱現編歌曲的功能。同時現場也展示了Grok-4在遊戲開發領域的潛力,遊戲設計師在4小時內利用AI製作出一個簡單的第一人稱射擊遊戲,發佈會上馬斯克提出明年有望出現首款AI遊戲和首部AI電影。Grok 4當前在視覺領域的理解和生成能力仍然不足,根據馬斯克發言,相關功能預計在數周到數月內的下個小版本上做重點改進。后續XAI計劃在8月發佈代碼模型,9月發佈多模態智能體,10月發佈視頻生成模型。
▍風險因素:
AI核心技術發展不及預期,AI被不當使用造成嚴重社會影響,企業數據安全風險,信息安全風險,行業競爭加劇,地緣政治風險。
▍投資策略。
Grok 4在專業學科和複雜任務上的推理能力突出,展現未來模型在長流程專業工作上的應用潛力,支持Agent落地高價值場景,結合后續多模態能力有望突破打開全新應用場景,行業落地對應帶動AI Infra和算力需求,建議關注相關領域重點公司的投資機會,綜合梳理以下投資主線:1)主線一:通用管理軟件; 2)主線二:工具軟件和其他重點行業軟件;3)主線三:AI基礎設施。
注:本文節選自中信證券研究部已於2025年7月11日發佈的《計算機行業「智能網聯」系列報告62—Grok 4:推理能力躍升,期待多模態升級》報告,分析師:楊澤原S1010517080002;丁奇S1010519120003;馬慶劉S1010522090001