繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

2025大模型半年回顧:o3、agent和scaling law

2025-06-25 18:41

每一年的年中或年末,一些科學家、企業家或者行業 KOL 會針對他們活躍的領域做一份總結與預測。在「AI 一天,人間三年」的大模型時代,這樣的回顧與前瞻,極具參考價值。

日前,機器學習研究員、艾倫人工智能研究所后訓練負責人 Nathan Lambert 便在一篇個人博客中就「o3 的搜索功能」、「agent 與模型進展」,以及「scaling 增長放緩」等主題進行了深入探討。

他寫道,「隨着新模型的發佈速度放緩,是時候回顧一下今年我們取得了哪些成果,以及未來的發展方向了。」

圖|Nathan Lambert

在他看來,o3 展現出的獨特搜索能力,證明了 OpenAI 在提升推理模型中搜索和其他工具使用的可靠性方面取得了技術突破。「我聽過的對它在尋找特定信息時那種不懈追求的最佳描述,就像一隻‘嗅到目標的訓練有素的獵犬’。」

他還表示,未來更多的人工智能模型將類似於 Anthropic 的 Claude 4,儘管其基準測試提升很小,但在實際應用中的進步卻很大。「對模型進行微小調整即可讓像 Claude Code 這樣的 agent 顯得更加可靠。」

此外,在談及預訓練 scaling law「基本停滯」問題時,他表示「新的規模層級擴展可能每隔幾年纔會實現,甚至完全無法實現,」這取決於人工智能的商業化是否如預期般順利。

儘管如此,他並不認為「預訓練作為一門科學已不再重要」。Gemini 2.5 就是一個反例。

學術頭條在不改變原文大意的情況下,對整體內容做了精編,如下:

原文鏈接:https://www.interconnects.ai/p/summertime-outlook-o3s-novelty-coming

夏季一直是科技行業相對平靜的時期。OpenAI 似乎完全符合這一趨勢,其開源模型「需要更多時間」進行優化,而 GPT-5 的發佈也似乎總是被推迟。這些顯然將是重大新聞,但我不確定我們是否能在 8 月之前看到它們。

我將利用這段人工智能發佈潮的短暫間歇,回顧我們走過的路,展望未來的方向。以下是你需要了解的內容。

o3:超越 scaling 的技術突破

關於 OpenAI 的 o3 模型,主流觀點認為,他們「為強化學習訓練擴展了計算資源」,這導致了一些奇怪的、全新的過度優化問題。這種説法是正確的,而發佈會的直播內容仍然代表了一種突破——即通過可驗證獎勵強化學習(RLVR)來擴大數據和訓練基礎設施的規模。

關於 o3,人們對它帶來的不同搜索體驗討論不多。對於一個普通的查詢,o3 可以查看數十個網站。我聽過的對它在尋找特定信息時那種不懈追求的最佳描述,就像一隻「嗅到目標的訓練有素的獵犬」。o3 給人這樣一種感覺,它可以以一種與現有任何模型完全不同的方式找到信息。

值得注意的是,距離其 2025 年 4 月發佈已過去數月,而其他領先實驗室尚未推出任何類似的模型。在一個在實驗室之間(尤其是 OpenAI 和 Google)發佈內容似乎完全同步的背景下,o3 中這種持續的搜索能力仍讓我印象深刻。

核心問題是,何時會有另一家實驗室發佈一款同等質量的模型?如果這一趨勢持續到夏季結束,這將證實 OpenAI 在提升推理模型中搜索和其他工具使用的可靠性方面取得了技術突破。

作為對比,讓我們思考一個開放和學術社區面臨的基本問題,即如何構建一個受 o3 啓發的模型(實際搜索能力更接近於 GPT-4o 或 Claude 4):

1.找到能夠激勵模型進行搜索的 RL 數據至關重要。在 RL 實驗中,讓模型嘗試在系統提示中進行搜索很容易,但隨着訓練的進行,如果工具不夠實用,模型應該迅速學會停止使用它。在這一方面,OpenAI 非常擅長,尤其是結合 Deep Research 的 RL 訓練經驗(我瞭解到,其訓練基於 o3)。另外,一篇展示 DeepSeek R1 風格的擴展 RL 訓練且在大數據子集上保持一致工具使用率的研究論文,將會深深打動我。

2.底層搜索索引也非常重要。OpenAI 的模型基於 Bing 后端運行。Anthropic 使用 Brave 的 API,但性能表現不佳(存在大量 SEO 垃圾信息)。使用這些 API 構建學術基線會帶來一些額外計算成本。一旦有了可靠的開放基線,我們就可以開展一些有趣的科學研究,例如探討哪個模型能夠最好地泛化到未見過的數據集——這是在本地敏感數據(如醫療或銀行業)上部署模型時的一項關鍵特性。

如果你尚未使用 o3 進行搜索,真的應該嘗試一下。

Agent 性能將大幅提升

Claude Code(加之 Claude 4)的產品市場契合度堪稱卓越。這是產品的完美組合——運行穩定且高效,用户體驗(UX)與領域高度契合...... 使用起來簡直是一種享受。

在這種背景下,我一直在尋找更多方式來撰寫相關內容。一個問題是,我並非 Claude Code 以及其他編程助手(如 Codex 和 Jules)的核心用户羣體。我並非經常在複雜的代碼庫中進行開發——我更像是組織內的研究經理和問題解決者,而非始終在單一倉庫中持續開發的開發者——因此,我沒有關於如何充分利用 Claude Code 的實用指南,也沒有與之建立深層連接,以幫助你「感受 AGI」的經驗。

我所瞭解的是模型和系統,而前沿模型的一些基本事實使得這些 agent 的能力發展軌跡顯得相當樂觀。

基於 LLM 的 agent 的新穎之處在於,它們涉及多次模型調用,有時甚至需要多個模型和多種 prompt 配置。此前,人們在聊天窗口中使用的模型都是為完成線性任務並將其結果返回給用户而設計的,而無需管理複雜的記憶或環境。

為模型添加真實環境使得模型需要完成更多任務,且任務範圍往往更為廣泛。在構建這些 agentic 系統時,存在兩種類型的瓶頸:

(1)模型無法解決我們希望 agent 執行的任何任務,以及(2)模型在部署任務的某些細微環節上出現故障。

對於已經取得初步進展的 agent,如 Claude Code 和 Deep Research,表現出的問題大多屬於第二類。實驗室的解決方式是,在實際應用場景中找到反覆出現的異常故障。這可能表現爲某些長尾日常任務的可靠性僅為 50%。在這種情況下,實驗室通常可以輕松生成新的數據,將其納入模型續訓練中,從而將該子任務的可靠性提升至近 99%。由於實驗室當前主要通過后訓練而非大規模預訓練來實現性能提升,因此這些改進被整合所需的時間遠短於近幾年。

關鍵在於這一切如何一起發揮作用。許多複雜任務可能因某些小故障而受阻。在這種情況下,對模型進行微小調整即可讓像 Claude Code 這樣的 agent 顯得更加可靠,儘管模型峰值性能並未發生顯著變化。Deep Research 的情況也是如此。

因此,我預計我們當前使用的這些 agent 將實現隨機且大幅的性能提升。

我目前不確定的是,新的 agent 平臺何時會出現。一個影響因素是產品問題,另一個影響因素則是性能瓶頸問題。看似已經實現產品市場契合(PMF)的新 agent 平臺,其發展路徑可能會有些隨機,但已經實現 PMF 的平臺則可以像我們習慣的那樣,通過前沿模型實現顯著提升。

這是該行業的一條新路徑,將採用與以往不同的信息傳遞方式。未來更多的人工智能模型將類似於 Anthropic 的 Claude 4,儘管其基準測試提升很小,但在實際應用中的進步卻很大。這一趨勢將帶來政策、評估和透明度方面的影響。要判斷技術進步是否持續,需要更加細微的分析,尤其是當批評者抓住評估指標停滯不前的機會、聲稱人工智能已不再有效時。

與 o3 類似,即使你不經常編程,也應該嘗試使用 Claude Code。它能夠快速創建有趣的演示和獨立網站。與 Codex 等完全自主的 agent 相比,它目前在易用性方面有着很大優勢。

模型 scaling 速度變緩

2025 年,由領先的人工智能實驗室發佈的模型,在總參數規模上大多不再繼續增長。以 Claude 4 為例,其 API 定價與 Claude 3.5 保持一致。OpenAI 僅發佈了 GPT-4.5 的研究預覽版。Gemini 尚未發佈其 Ultra 版本。這些實驗室內部還有更多未公開的模型,其規模更大。

需要注意的是,其中許多模型可能在規模上略有減小,例如 Claude 4 Sonnet 可能比 Claude 3.5 Sonnet 稍小,這是由於預訓練階段的效率提升。這種邊際技術進步在價格和推理速度上具有重大影響,尤其從長期來看,但這並非我論點的核心。

重點在於,GPT-5 的能力提升主要通過推理時擴展實現,而非單純依賴「更大的單一模型」。多年來,我們一直被告知「擁有最大訓練集羣的實驗室將贏得競賽,因為它們在擴展方面具備優勢」。這就是馬斯克打造 xAI 巨型集羣的原因。如今,最大集羣僅在整體研發進度上具備優勢。

在用户需求層面,擴展已基本不具有吸引力。未來,當實驗室遇到用户需要解決的極具挑戰性的問題時,他們可能會重新關注這一領域。儘管 GPT-4.5 的訓練計算成本約為 GPT-4 的 100 倍,其在常規用户指標上的提升僅略微顯著。

我們看到的是,針對用户喜愛模型規模進行的大規模效率提升。行業內也已形成了幾項標準:

1.微型模型(Tiny models),如 Gemini Flash Lite 或 GPT 4.1 Nano;

2.小型模型(Small models),如 Gemini Flash 和 Claude Haiku;

3.標準模型(Standard models),如 GPT-4o 和 Gemini Pro,

4.大型模型(Big models),如 Claude Opus 和 Gemini Ultra。

這些模型具有相對可預測的價格點、延迟和能力水平。隨着行業成熟,此類標準至關重要!

隨着時間推移,效率的提升將催生新的標準。我們將看到 Gemini Ultra 和 GPT-4.5(GPT-5)等模型的廣泛普及,但后續發展方向尚不明確。目前,新的規模層級擴展可能「每隔幾年」纔會實現,甚至完全無法實現,這取決於人工智能的商業化是否如預期般順利。

Scaling,作為產品差異化的一個因素,在 2024 年已不再有效。然而,這並不意味着預訓練作為一門科學已不再重要。最近的 Gemini 2.5 報告就明確地指出:

Gemini 2.5 系列模型在提升大規模訓練穩定性、信號傳播和優化動態方面取得了顯著進展,與之前的 Gemini 模型相比,在預訓練階段取得了顯著的性能提升。

本文來自微信公眾號「學術頭條」,整理:學術君,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。