熱門資訊> 正文
2025-08-06 16:14
不圓 奕然 發自 凹非寺
量子位 | 公眾號 QbitAI
最新戰報最新戰報:首屆AI國際象棋對戰……馬斯克家的Grok 4「遙遙領先」了。
是的,谷歌給大模型整了個國際象棋比賽:Kaggle AI象棋競賽。
在首日對決之后,參賽選手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一輪較量,結果——
Grok 4表現最佳,DeepSeek R1表現強勁,但不敵o4-mini,Kimi K2最慘——都讓網友喊冤了。
眼見自家Grok 4表現出色,馬斯克當然不會錯過PR良機,不過迴應略顯凡爾賽:
我們沒有刻意去訓練,這只是一個副作用。
u1s1誰又能為這麼個「無厘頭」比賽專門刻意訓練呢?
當然,讓AI對戰國際象棋,過程比輸贏重要多了,畢竟谷歌發起這次比賽的初衷,就是測試「涌現」能力。
首屆Kaggle AI國際象棋競賽
本次比賽由谷歌發佈,作為推廣Kaggle遊戲競技場的一個環節。首次比賽以國際象棋開始。
參賽「選手」包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。
8月5日至8月7日每天10:30(太平洋時間)準時直播賽況。
除了各個頂級模型的象棋對決,直播還邀請了國際象棋特技大師中村光(Hikaru Nakamura)作為講解。
他於7歲那年開始學習國際象棋,到15歲時成為全美國際象棋冠軍並拿到GM頭銜,也是本屆EWC國際象棋(迄今為止規模最大的國際象棋錦標賽)的季軍。
在一天的角逐后,目前挺入半決賽圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。
吃瓜羣眾坐等看ChatGPT的o4-mini和o3的「內鬥」,以及Gemini 2.5 Pro對戰Grok 4。
並且,所有在八分之一決賽中的比賽都以完美的4-0結束。實力差距非常明顯。
網友們分析了這次賽況,表示Grok 4在這次基準測試中「在戰術策略和速度上超越了所有其他模型」。
可是等等,現在不是才八進四麼?這麼快就下結論了?
讓我們一起看看各模型的具體表現,是什麼讓網友作出瞭如此高的評價:
Grok 4 vs Gemini 2.5 Flash
Grok4如同猛獸, 它輕松的表現就像「真正的GM」一樣下棋,成為當天最佳。
另一方面,Gemini Flash從一開始就處於劣勢,包括開局時吃王。
OpenAI o4-mini vs DeepSeek R1
在OpenAI o4-mini對陣DeepSeek R1的賽程中,R1開局強勁,但最終輸給了o4-mini。
比賽中雙方都犯了不少錯誤,但o4-mini率先抓住了R1犯下的失誤。
R1提供的推理雖然自信卻錯誤,而且對棋盤局勢的缺乏洞察導致它留下了棋子給o4-mini率先拿走。
Gemini 2.5 Pro vs Claude Opus 4
這場Gemini 2.5 Pro和Claude Opus 4的對陣是當天最佳對局,兩個模型都展示了高水平的棋藝。
Claude出現一些失誤,而Gemini Pro展現了強大的戰術視野,但給出的分析有時過於宂長。
Kimi K2 對陣o3
這是最快的四分之一決賽,Kimi K2被「碾壓」,主要是因為它反覆堅持走非法棋步,o3以棄權獲勝,沒有太多值得分析的表現。
不過也有人替Kimi鳴不平:因為Kimi不是推理模型,長思考纔能有更好的性能,步驟越往后,越需要長思考。
為什麼是國際象棋?
所以為什麼要選國際象棋來讓AI對戰?
這麼説吧,國際象棋規則明確但複雜度高(10^120種可能局面),是測試AI決策能力的理想場景。
雖然有網友會產生誤讀,認為它是「越大越優」,但實際上,這個數字已經遠超窮舉法的適用範疇。
前些時間,陶哲軒在Lex訪談中提到:有些數學問題無法直接通過暴力計算來解決。例如國際象棋排列的數量,我們至今無法用計算機完全解決,但我們現在有AI,它們不會探索博弈樹中的每個位置,而是尋求近似值。
換句話講,讓AI去下國際象棋,考驗的其實是AI的涌現能力。
有位網友也關注到了這點,並對這次Grok 4的表現做出了總結:
這位網友表示,在傳統AI中,模型實力源於領域特定訓練模(為任務量身定製);而在前沿AI中,模型實力源於一致性泛化(進化出能夠映射到一切事物的內部世界結構)。國際象棋只是其中一種投射。
網友們普遍認為,國際象棋是一種很可靠的評估AI能力的方式。
也有網友對AI的下一個競技遊戲進行了預測:或許會是UNO?(當然是開玩笑)
哪個AI最被看好?
在Kaggle AI象棋競賽正式開始之前,有網友在Manifold上發起了一個投票:誰會是這場AI象棋競賽的最終勝者?
起初,Gemini 2.5 Pro是最受歡迎的,o4緊隨其后。
但在八進四比賽后,該投票發生了明顯變化,Grok 4呈現壓倒性優勢。
不過越是這樣就越讓人期待,會不會出現什麼抓馬的意外呢?
參考鏈接:
[1]https://x.com/elonmusk/status/1952814912839008347
[2]https://www.youtube.com/watch?v=-nByurcQHDI
[3]https://x.com/_The_Prophet__/status/1952855259841478657
[4]https://x.com/richardcsuwandi/status/1952828128998699335
(聲明:本文僅代表作者觀點,不代表新浪網立場。)