繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

馬斯克Grok 4逆天跑分泄露,「人類最后考試」豪取45%全場第一!

2025-07-05 12:05

Grok 4馬上就來,馬斯克説的!

甚至,現在部署的Grok,已經在能力上有了顯著的提升。

與此同時,網友LEGIT的一張截圖,更是直接泄露了Grok 4和Grok 4 Code在多個關鍵基準評測上的跑分。 與此同時,網友LEGIT的一張截圖,更是直接泄露了Grok 4和Grok 4 Code在多個關鍵基準評測上的跑分。

目前,這一消息已經得到了AI圈知名大佬Tibor Blaho的確認。

根據泄露的數據,Grok 4在GPQA、AIME 25和SWE-bench評測中可謂是「遙遙領先」,全面碾壓谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

  • GPQA(研究生級物理和天文學問題):Grok 4得分87-88%,略優於Gemini 2.5 Pro的86.4%,明顯超過Claude 4 Opus的79.6%。

  • AIME 25(2025美國數學邀請賽):Grok 4得分95%,大幅超越Claude 4 Opus的75.5%,並優於OpenAI o3的88.9%。

  • SWE-bench(真實軟件工程問題):Grok 4 Code得分72-75%,略優於Claude Opus 4的72.5%,略高於OpenAI o3的71.7%。

不僅如此,Grok 4還在覆蓋範圍最廣、難度最高的終極閉卷學術基準「人類最后的考試」(Human Last Exam,HLE)上取得了默認35%、最高45%的驚人高分。

這也意味着,最強狀態下的Grok 4,得分是現任老大Gemini 2.5 Pro的2倍——高出了整整24個百分點。

相比正確率只有10.7%的Claude 4 Opus,成績直接翻了4倍還多。

HLF這門考試堪稱殘酷,是專為挫敗LLM的鋭氣而設計:

  • 橫跨100多個學科的2,500道專家級試題

  • 14%為多模態題型(文本+圖像)

  • 24%的問題為多項選擇題

  • 設有防記憶陷阱和隱藏測試集,用於阻止「作弊式訓練」

下圖是所含知識的高層次可視化圖表,其中的每個類別還包含有很多具體學科。

項目主頁:https://lastexam.ai/ 項目主頁:https://lastexam.ai/

要知道,大多數前沿模型在這一分數面前都望塵莫及。

如果此次泄露屬實,那麼Grok 4就算闖過了AI基準測試領域最難的關卡之一。

由於在HLF的得分異常地高,Grok 4的發佈再度引起了社區的廣泛討論。

是的,如果屬實,這意味着該模型具有極其強大的世界知識。

看到如此之強的Grok 4,網友們已經迫不及待了,紛紛在線催更:

Grok 4源代碼泄露

馬斯克此前的採訪中,曾經透露説。

Grok 3.5 正在嘗試從第一性原理出發進行推理,也就是將物理學的方法應用到思維過程中。

Grok-3.5正是如今的Grok 4,老馬決定一步到位,從Grok-3直接到Grok 4,不再擠牙膏了。

這似乎預示着Grok 4的能力會非常大的突破!

幾天前,X上就有人發現在xAI控制檯源代碼中發現的2個Grok 4模型:Grok 4和Grok 4 Code

Grok 4:

  • 最新、最卓越的旗艦模型,在自然語言、數學及推理領域展現出無與倫比的性能,堪稱萬能的完美之選

Grok 4 Code:

  • 專為編程伴侶量身打造的模型。可以向它諮詢代碼相關的問題,或直接將其嵌入到代碼編輯器中

也有人持懷疑態度

當然也有人似乎是被之前Grok 3的炒作「傷透了心」。

HLE的創建者Dan Hendrycks是xAI的親密顧問(相比其他實驗室而言)。

網友們想知道Dan Hendrycks是否只提供了安全方面的建議,還是以某種方式給出了增強科學知識細節的具體研發建議。

這不禁讓人們聯想到此前Llama 4的翻車鬧劇,也是因為提前進行了「針對性的訓練」。

馬斯克親自帶貨

馬斯克曾在6月27日發帖稱,正和團隊加班加點的研發Grok。

將在7月4日后發佈Grok 4,按照美東時間,今天開始,任何時候都有可能見證Grok 4的發佈。

馬斯克特地強調了,需要一次大型訓練來開發了「特殊」的編碼模型。

在5月20日的微軟Build 2025大會上,馬斯克現場講述了Grok 3.5(Grok 4)將從第一性原理出發進行構建。

馬斯克:

尤其是在即將發佈的Grok 3.5中,我們的目標是讓模型從 第一性原理 出發進行推理。 

也就是説,像物理學家那樣思考,借用物理的工具來分析問題。 

如果你想要探尋事物的本質真相,就必須把問題分解到最基本、最可能正確的公理層面,然后再從這些基礎出發向上推理。 

接着,你可以將最終結論與這些基本原理進行校驗。 在物理學中,如果你得出的結果違反了能量守恆或動量守恆,那你要麼發現了諾獎級別的新理論,要麼——更可能的是——你搞錯了。 

所以我們打造Grok 3.5的核心目標,就是以物理的基本原理為指導,應用這些方法來推理各種問題,力求以最小的誤差,接近真實。 

當然,出錯是難免的,但我們的目標是持續減少這些錯誤。這個方向對於 AI 安全 至關重要。 

我長久以來都在思考AI安全問題,而我最終得出的結論,其實可以用一句老話來概括: 誠實是最好的策略 。 

這不僅是道德要求,更是安全保障。 當然我們也會犯錯,但我們承諾會盡快修正這些錯誤。 

我們也非常期待來自開發者社區的反饋——你們需要什麼?我們哪里做錯了?又該如何改進? 

我們希望Grok成為一個令開發者充滿期待的工具,一個他們的聲音能真正被聽到的平臺。 

Grok將不斷進化,努力滿足開發者的需求。

編碼能力成為必爭之地

根據Grok API此前的模型推測,這次Grok 4 Code將是發佈的重頭戲,也許還會有Grok 4 mini。

馬斯克特地提到Grok 4的編碼能力,也是受到如今各家的影響,編碼能力稱爲了衡量新模型的試金石。

谷歌

  • Gemini2.5包括改進的代碼生成、複雜代碼重構/轉換、上下文管理、更好的PR評審能力,以及可定製命令等。

  • Gemini CLI是近期推出的命令行AI助手,基於Gemini2.5 Pro,可處理長達百萬token的上下文,支持包括代碼編寫、調試、內容生成和任務管理於一體的多功能開發體驗。

Anthropic

  • Claude 4(包含Opus與Sonnet)是Anthropic迄今最強大的模型系列,顯著提升編碼與AI agent能力。

  • Claude Code專注於終端環境使用,提供從代碼編輯、問題修復、架構理解,到運行測試、lint、git操作、PR創建的一站式工具。

OpenAI

  • 新版Codex是基於OpenAI o3微調而來的,用於自然語言翻譯代碼,延續迄今生成工具(如GitHubCopilot)的核心能力。

DeepSeek

  • DeepSeek‑R1‑0528是DeepSeek推出的R1最新版本,定位為全能推理與編碼能力提升模型。

既然老馬着重提到了編碼能力,那麼也許這次是值得期待的。

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。