9.11比9.9大？馬斯克聲稱「天下最聰明」的Grok3「翻車了」

2025-02-19 15:10

近日，馬斯克與xAI團隊，在直播中正式發佈了最新版本Grok3。

此前，馬斯克將Grok-3描述為「地球上最聰明的AI」。他在X平臺上表示：「自己整個周末都在和團隊打磨產品。」

然而據媒體報道，有人測試了最新的Beta版Grok3，並提出了那個經典的用來刁難大模型的問題：「9.11與9.9哪個大？」遺憾的是，在不加任何定語以及標註的情況下，號稱目前最聰明的Grok3，仍然無法正確回答這個問題。

值得一提的是，用同樣的問題詢問DeepSeek時，無論是否開啟深度思考（R1）模式，對方都給出了正確的答案：9.9大於9.11。

「9.11和9.9哪個大」是AI領域的一個經典問題。

艾倫研究機構（Allen Institute）成員林禹臣曾在社交媒體平臺上發佈的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。「一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。」他表示。

隨后Scale AI的提示工程師萊利·古德賽德（Riley Goodside）基於此靈感變換了問法，拷問了可能是當時最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？這幾家主流大模型通通答錯，他也成功將此話題傳播開來。

海外主流大模型答題。圖源：第一財經

Grok-3發佈會的背景板上，寫着"our mission is to understand universe（我們的使命是瞭解宇宙）"。馬斯克曾表示，xAI公司的目標就是「瞭解宇宙」。

在一周前，馬斯克在直播中評論DeepSeek R1時，曾信心滿滿地表示「xAI即將推出更優秀的AI模型」。從現場展示的數據來看，Grok3在數學、科學與編程的基準測試上已經超越了目前所有的主流模型，馬斯克甚至宣稱Grok 3未來將用於SpaceX火星任務計算，並預測「三年內將實現諾貝爾獎級別突破」。

xAI在X平臺直播，馬斯克到場。圖源：中國新聞周刊

馬斯克強調，Grok-3可以減少AI幻覺，方法是通過來回檢查數據並嘗試實現邏輯一致性。他還透露，訓練Grok-3所使用的算力遠多於此前的版本，並使用了大量合成數據。

不同於DeepSeek的算法優化路徑（DeepSeek-V3用2048個H800 GPU，訓練2788千小時），xAI透露，Grok-3的開發的得益於用8個月時間建成的Colossus超級計算機，它由10萬個英偉達的H100 GPU驅動，為訓練提供了2億個GPU小時，比Grok-2多十多倍。

此外，xAI宣佈推出名為Deepsearch的Grok-3智能搜索引擎，名字和Deepseek頗有幾分相似。

來源：九派新聞綜合東方財經、第一財經、中國新聞周刊等

9.11比9.9大？馬斯克聲稱「天下最聰明」的Grok3「翻車了」

推薦文章

提價83%需求卻暴增400%！智譜、MiniMax鎖定大模型定價權，AI Agent元年即將開啟？

港股見底了嗎？北水大舉加倉逾600億港元！大行看好4月做多窗口來臨，十大金股一圖睇全

華盛早報 | 伊朗與阿曼擬共管霍爾木茲！美股V型反轉；伊朗襲擊甲骨文、亞馬遜數據中心；港美股今日因假期休市一天

諾和諾德稱：口服版Wegovy減肥效果優於禮來GLP‑1口服藥

美股機會日報 | 特朗普粉碎停戰幻想！恐慌指數飆升12%，納指期貨跌約2%；美油期貨暴漲超9%！油氣股飆升，美國原油基金ETF漲超9%

清明休市提醒 | 港股本周五休市，下周三恢復交易；美股周五休市一天

油價上漲 此前特朗普表示伊朗衝突可能在未來幾周升級

野村：特朗普講話未能發出局勢降温的明確信號

油價上漲此前特朗普表示伊朗衝突可能在未來幾周升級