熱門資訊> 正文

戰報：馬斯克Grok4笑傲AI象棋大賽，DeepSeek沒干過o4-mini，Kimi K2被喊冤

2025-08-06 16:14

不圓奕然發自凹非寺

量子位 | 公眾號 QbitAI

最新戰報最新戰報：首屆AI國際象棋對戰……馬斯克家的Grok 4「遙遙領先」了。

是的，谷歌給大模型整了個國際象棋比賽：Kaggle AI象棋競賽。

在首日對決之后，參賽選手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一輪較量，結果——

Grok 4表現最佳，DeepSeek R1表現強勁，但不敵o4-mini，Kimi K2最慘——都讓網友喊冤了。

眼見自家Grok 4表現出色，馬斯克當然不會錯過PR良機，不過迴應略顯凡爾賽：

我們沒有刻意去訓練，這只是一個副作用。

u1s1誰又能為這麼個「無厘頭」比賽專門刻意訓練呢？

當然，讓AI對戰國際象棋，過程比輸贏重要多了，畢竟谷歌發起這次比賽的初衷，就是測試「涌現」能力。

首屆Kaggle AI國際象棋競賽

本次比賽由谷歌發佈，作為推廣Kaggle遊戲競技場的一個環節。首次比賽以國際象棋開始。

參賽「選手」包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。

8月5日至8月7日每天10：30（太平洋時間）準時直播賽況。

除了各個頂級模型的象棋對決，直播還邀請了國際象棋特技大師中村光（Hikaru Nakamura）作為講解。

他於7歲那年開始學習國際象棋，到15歲時成為全美國際象棋冠軍並拿到GM頭銜，也是本屆EWC國際象棋（迄今為止規模最大的國際象棋錦標賽）的季軍。

在一天的角逐后，目前挺入半決賽圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。

吃瓜羣眾坐等看ChatGPT的o4-mini和o3的「內鬥」，以及Gemini 2.5 Pro對戰Grok 4。

並且，所有在八分之一決賽中的比賽都以完美的4-0結束。實力差距非常明顯。

網友們分析了這次賽況，表示Grok 4在這次基準測試中「在戰術策略和速度上超越了所有其他模型」。

可是等等，現在不是才八進四麼？這麼快就下結論了？

讓我們一起看看各模型的具體表現，是什麼讓網友作出瞭如此高的評價：

Grok 4 vs Gemini 2.5 Flash

Grok4如同猛獸，它輕松的表現就像「真正的GM」一樣下棋，成為當天最佳。

另一方面，Gemini Flash從一開始就處於劣勢，包括開局時吃王。

OpenAI o4-mini vs DeepSeek R1

在OpenAI o4-mini對陣DeepSeek R1的賽程中，R1開局強勁，但最終輸給了o4-mini。

比賽中雙方都犯了不少錯誤，但o4-mini率先抓住了R1犯下的失誤。

R1提供的推理雖然自信卻錯誤，而且對棋盤局勢的缺乏洞察導致它留下了棋子給o4-mini率先拿走。

Gemini 2.5 Pro vs Claude Opus 4

這場Gemini 2.5 Pro和Claude Opus 4的對陣是當天最佳對局，兩個模型都展示了高水平的棋藝。

Claude出現一些失誤，而Gemini Pro展現了強大的戰術視野，但給出的分析有時過於宂長。

Kimi K2 對陣o3

這是最快的四分之一決賽，Kimi K2被「碾壓」，主要是因為它反覆堅持走非法棋步，o3以棄權獲勝，沒有太多值得分析的表現。

不過也有人替Kimi鳴不平：因為Kimi不是推理模型，長思考纔能有更好的性能，步驟越往后，越需要長思考。

為什麼是國際象棋？

所以為什麼要選國際象棋來讓AI對戰？

這麼説吧，國際象棋規則明確但複雜度高（10^120種可能局面），是測試AI決策能力的理想場景。

雖然有網友會產生誤讀，認為它是「越大越優」，但實際上，這個數字已經遠超窮舉法的適用範疇。

前些時間，陶哲軒在Lex訪談中提到：有些數學問題無法直接通過暴力計算來解決。例如國際象棋排列的數量，我們至今無法用計算機完全解決，但我們現在有AI，它們不會探索博弈樹中的每個位置，而是尋求近似值。

換句話講，讓AI去下國際象棋，考驗的其實是AI的涌現能力。

有位網友也關注到了這點，並對這次Grok 4的表現做出了總結：

這位網友表示，在傳統AI中，模型實力源於領域特定訓練模（為任務量身定製）；而在前沿AI中，模型實力源於一致性泛化（進化出能夠映射到一切事物的內部世界結構）。國際象棋只是其中一種投射。

網友們普遍認為，國際象棋是一種很可靠的評估AI能力的方式。

也有網友對AI的下一個競技遊戲進行了預測：或許會是UNO？（當然是開玩笑）

哪個AI最被看好？

在Kaggle AI象棋競賽正式開始之前，有網友在Manifold上發起了一個投票：誰會是這場AI象棋競賽的最終勝者？

起初，Gemini 2.5 Pro是最受歡迎的，o4緊隨其后。

但在八進四比賽后，該投票發生了明顯變化，Grok 4呈現壓倒性優勢。

不過越是這樣就越讓人期待，會不會出現什麼抓馬的意外呢？

參考鏈接：

[1]https://x.com/elonmusk/status/1952814912839008347

[2]https://www.youtube.com/watch?v=-nByurcQHDI

[3]https://x.com/_The_Prophet__/status/1952855259841478657

[4]https://x.com/richardcsuwandi/status/1952828128998699335

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

戰報：馬斯克Grok4笑傲AI象棋大賽，DeepSeek沒干過o4-mini，Kimi K2被喊冤

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？