熱門資訊> 正文
2025-07-10 14:51
明敏 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
全世界屏息以待1個小時,馬斯克的「世界最強」Grok 4終於發佈!
一出手,就在「人類最后考試」上,成為首個突破50%準確率的模型。
得益於在訓練中原生融入工具,Grok-4找到刷分法門,Grok-4 Heavy達到44.4%,比Gemini-2.5-Pro直接提升將近18個百分點。
如果測試時訓練+融入工具,可直接打到50.7%。
馬斯克給了個直觀對比:普通人類在這一基準上的得分,可能只有5%。
馬斯克直言,Grok-4比所有領域的博士生都聰明!
它即便裸考SAT(不提前看題目)也能拿到幾乎完美的分數,GER考試幾乎滿分。
……
我估計最晚明年,我們就能看到Grok帶來的物理學新發現。
此外在其他基準上,Grok-4也全部刷榜,甚至可以直接滿分。
GPQA(研究生水平問答)上得分88.9%;
AIME25(美國數學邀請賽)上得分100%;
LCB(Jan-May)上得分79.4%;
HMMT25(數學推理)上得分96.7%;
USAMO25(美國數學奧林匹克競賽)上得分61.9%。
爲了更直觀體現Grok-4有多聰明,發佈直播了和ChatGPT的語音對話對比,從發佈來看Grok-4確實贏得相當明顯。
值得一提的,就在發佈前夕,OpenAI預熱已久的開源推理模型突然有了風聲:可能在下周四(美國時間)發佈。
Grok-4這邊也出了些小插曲,比原定時間推迟1小時發佈,讓大家好等了一會兒。
有人調侃:再等一等馬上就訓練好了,然后直接發佈!
言歸正傳,我們來看Grok-4的最新表現。
直播內容
這一次和馬斯克一起發佈新模型的還是老熟人吳宇懷Yuhuai(Tony) Wu和Jimmy Ba。
吳宇懷Yuhuai(Tony) Wu,斯坦福大學博士后,博士畢業於多倫多大學。
Jimmy Ba,2023年斯隆獎得主,Hinton手下的助理教授,本科到博士都在多倫多大學。
他們倆主要負責介紹模型具體性能。
一開場,馬斯克先對Grok-4的亮點表現做了一些概括性介紹,比如比博士生還聰明,「這一點值得反覆強調」。
然后便開始揭祕Grok-4是如何這麼強大。
首先,Grok-4的訓練量是Grok-2的100倍、Grok-3的10倍,這其中在RL方面投入了大量計算資源。主要依靠xAI建設的20萬卡計算集羣。
Grok基礎模型的前7個版本已經在這個月完成訓練。
其次,Grok-4特別強調了在后訓練過程中原生融入工具,並通過多項結果對比論證其有效性。
比如在「人類最后考試HLE」上,在訓練中融入工具,不僅比不使用工具能取得更高分數,而且Scaling提升效率也更高。即增加同樣的計算資源,工具融入訓練能換來更高智能。
測試時訓練下這一分數還能進一步提升10個百分點。
通過這一方法,Grok-4能靈活調用工具完成各種複雜任務。
發佈直播中主要展示了幾個demo。
強大推理能力:基於預測市場數據,預測MLB世界大賽勝率(給出道奇隊勝率21.6%)
可視化理解:通過后牛頓近似模型模擬黑洞引力波碰撞,生成真實的波形視覺動畫。
還有聯網找到xAI員工中頭像最古怪的人:
這些都很好展示了Grok-4的數學、推理、多模態理解等方面能力。
此外,發佈還展示了Grok-4在編程、藥物發現等領域能力。
在Live Coding Bench 編程測試上幾乎滿分,而且預告了未來還將推出專門的快速+智能編程模型。
在RKG藥物基準中,成為唯一突破10%準確率的模型。
還要在真實世界場景中,Grok-4的表現也值得關注,比如在自動零售bench上排名第一。
還能協助生物醫療領域篩選假設、分析數據。
以及在馬斯克忠愛的遊戲領域,Grok-4現在可以設計和構建視頻遊戲了,包括資源獲取、寫代碼等,只需4個小時就能完成一款第一人稱射擊遊戲。
馬斯克表示,真正意義上的AI視頻遊戲將會在明年出現,之前他也成立了工作室來做AI遊戲。
最后,馬斯克還透露了Grok系列接下來的計劃:馬上會發一個編程模型,后面多模態Agent、視頻生成模型也都在路上了。
體驗方面還和之前類似,訂閲SuperGrok——30美元/月或300美元/年。
Grok-4差點熄火
幾乎是老規矩了,Grok-4的上線也是一波三折。
最開始馬斯克打算發的版本其實是3.5,但是到了6月,馬斯克覺得這個版本值得稱為Grok-4。
當時説,要用Grok重寫整個人類知識體系,然后在這個版本上訓練Grok的最新模型。
但這還沒完,就在老馬已經確定Grok-4就要今天發了,結果昨天Grok-3被曝出現不當言論引發軒然大波。隨后官方表示正在刪除此類帖子,並禁止Grok再發表此類言論。
然后,今天的發佈就比原定推迟了一個小時。
看着直播間的老馬,突然覺得他有點疲憊。
不過從這次發佈來看,Grok系列的矩陣正在逐步擴大。大熱的多模態、視頻模式,都已經安排上了。
以及最近有人發現,特斯拉最新固件里已經偷偷加上了Grok的全功能版本,只等激活。
根據猜測,Grok將會成為特斯拉中的語音助手,比傳統的對話AI更能理解人類對話,「徹底改變駕駛員與汽車的對話交互方式」。目前似乎可以支持英語、漢語。
此外,馬斯克也確認擎天柱人形機器人也將搭載Grok語音助手,未來將成為擎天柱人形機器人的大腦。
One More Thing
最近兩次模型上新,馬斯克都拉着華人科學家一起做發佈。
有人發現,Grok團隊里,亞洲面孔似乎已經佔半壁江山了。
[1]https://x.com/xai/status/1943158495588815072
[2]https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life
(聲明:本文僅代表作者觀點,不代表新浪網立場。)