中信證券：Grok 4推理能力躍升，期待多模態升級

2025-07-13 10:13

本文來自格隆匯專欄：中信證券研究作者：楊澤原丁奇馬慶劉

Grok 4專業學科和複雜任務上的推理能力突出，展現未來模型在長流程專業工作上的應用潛力，支持Agent落地高價值場景，結合后續多模態能力有望突破打開全新應用場景，行業落地對應帶動AI Infra和算力需求，建議關注相關領域重點公司的投資機會。

▍事項：Grok 4正式發佈並開放使用。

北京時間7月10日，XAI發佈新一代基座大模型Grok 4，包括Grok 4和Grok 4 Heavy兩個版本，在專業學科任務推理上性能提升。模型B端API定價輸入3美元/百萬Tokens，輸出15美元/百萬Tokens，較o3大約貴50%。C端30美元/月的訂閲會員即可使用Grok 4，高推理算力投入的Grok-4 Heavy版本則需要300美元/月的會員費用纔可以使用。

▍重點升級專業學科和複雜任務的推理能力。

Grok 4在專業學科和商業環境推理等複雜任務中表現大幅超越此前最佳（SOTA）的模型，在知識能力上已經超越本科生和研究生水平，正在全領域快速縮小與人類頂級專家的差距。

1）HLE：在各學科專家編寫的高難度學術測試集Humanity's Last Exam（HLE）測試集中，Grok-4在不使用工具的情況下正確率為26.9%，使用工具的情況下為41.0%，在推理階段加大RL算力投入后可進一步提升到50.7%，較此前的SOTA模型21.6%的水平翻倍增長。

2）Vending-Bench：在衡量複雜任務解決能力的商業環境測試Vending-Bench中，Grok-4得分是第二名Claude Opus 4的兩倍，模型正朝着解決真實複雜問題的方向邁進。

3）其他：在GPQA、AIME25、HMMT 25、USAMO 25等專業學科知識測試集上，Grok 4 Heavy在其中4項奪冠，尤其在 AIME25與HMMT25 分別獲得100% /96.7%的接近滿分表現。

▍推理能力發展帶動算力需求，技術創新為后續模型推理提效帶來新思路。

訓練側，Grok 4較Grok 2訓練量提升了100倍，較Grok-3在后訓練強化學習上的計算量提升10倍。推理側，和OpenAI o3-high相似，Grok 4 Heavy通過提高強化學習的算力投入提升模型效果，驗證Test time computing的有效性。以強化學習為基礎的推理能力在訓推兩端同步帶動算力投入提升，並且根據ARC-AGI v2測試結果顯示，Grok 4推理性價比（單位成本下的推理效率）顯著高於此前所有模型。技術方面，本次Grok 4的工程創新包括兩點：1）驗證工具使用能力對推理性能的重要價值，通過在預訓練階段讓模型學習使用工具，模型推理場景實際表現大幅提升；2）在后訓練強化學習中找到了可靠的獎勵信號方案。Grok 4的創新體現了推理能力依然是產業焦點和未來方向，工程探索為后續模型推理能力升級提供新的思路。

▍更新對話靈活、情感細膩的語音交互，多模態是后續更新計劃的重點。

Grok 4發佈新語音助手Eve，對話延迟降低一半，每日用户使用時長提升10倍。在現場演示中，新語音助手的對話音色、音調、語氣與真人高度相似，具備模仿耳語或者演唱現編歌曲的功能。同時現場也展示了Grok-4在遊戲開發領域的潛力，遊戲設計師在4小時內利用AI製作出一個簡單的第一人稱射擊遊戲，發佈會上馬斯克提出明年有望出現首款AI遊戲和首部AI電影。Grok 4當前在視覺領域的理解和生成能力仍然不足，根據馬斯克發言，相關功能預計在數周到數月內的下個小版本上做重點改進。后續XAI計劃在8月發佈代碼模型，9月發佈多模態智能體，10月發佈視頻生成模型。

▍風險因素：

AI核心技術發展不及預期，AI被不當使用造成嚴重社會影響，企業數據安全風險，信息安全風險，行業競爭加劇，地緣政治風險。

▍投資策略。

Grok 4在專業學科和複雜任務上的推理能力突出，展現未來模型在長流程專業工作上的應用潛力，支持Agent落地高價值場景，結合后續多模態能力有望突破打開全新應用場景，行業落地對應帶動AI Infra和算力需求，建議關注相關領域重點公司的投資機會，綜合梳理以下投資主線：1）主線一：通用管理軟件； 2）主線二：工具軟件和其他重點行業軟件；3）主線三：AI基礎設施。

注：本文節選自中信證券研究部已於2025年7月11日發佈的《計算機行業「智能網聯」系列報告62—Grok 4：推理能力躍升，期待多模態升級》報告，分析師：楊澤原S1010517080002；丁奇S1010519120003；馬慶劉S1010522090001

中信證券：Grok 4推理能力躍升，期待多模態升級

推薦文章

美股機會日報 | 估值8500億美元！傳OpenAI最新融資規模將破千億美元；黃仁勛稱將發佈幾款世界前所未見的新芯片

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意