熱門資訊> 正文

Anthropic 頂級研究員：AI 進入指數增長，你需要看懂這三件事

2025-10-28 09:38

谷歌(GOOG) 0
谷歌A(GOOGL) 0

2025 年 10 月 25 日，一位鮮少公開露面的 AI 頂級研究員在播客中給出判斷

AI 沒有任何放緩的跡象。每三四個月，模型就能完成兩倍長的任務。

説這話的是Julian Schrittwieser， Anthropic 核心研究員，他曾在谷歌DeepMind 領導了AlphaGo Zero 和 MuZero 的研發。

這不是科普訪談。他來自最前沿的實驗室，正目睹一個大多數人還沒意識到的現實：

大眾看到的：回答對了幾個問題

他看到的：模型開始完成一整天的工作

為什麼察覺不到？

Julian 給出的答案是：人類直覺無法理解指數級變化。

（圖片來源：Julian Schrittwieser博文《再次未能理解指數增長》，鏈接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/）

就像疫情初期人們低估傳播速度，AI 正在走同樣的路徑。當模型每三、四個月能力翻倍，關鍵不在於它有多強，而在於你看不看得懂正在發生的三件事。

第一節｜模型能跑多久，纔是關鍵

Julian Schrittwieser 的職業軌跡，幾乎串起了這十年人工智能的主線。

他曾讓 AlphaGo 擊敗李世石，是 MuZero 的第一作者，如今在 Anthropic 負責Claude 模型的推理研究。

「AI 的關鍵，不在於能答多少題，而在於能連續完成多長時間的任務。」

在他眼中，AI 的進步不是一連串「功能升級」，而是任務持續時間的延長。從幾秒、幾分鍾，到現在能處理幾個小時、甚至幾天的連續任務。

Julian 在訪談中解釋，這個指標叫 task length（任務長度），是他們在 Anthropic 內部用來衡量模型「生產力水平」的核心標準。他們發現，每隔三四個月，任務長度就會翻倍。模型不像人類那樣受疲勞影響，能持續思考、持續執行，而且出錯率在長任務中反而下降。

他舉了一個例子：以前的模型寫一段程序，需要人類不斷提示；現在，Claude 已經能獨立寫完一個完整的應用模塊，包括規劃結構、調用接口、測試和修復。

這不是更聰明，而是能干更久、更穩。

就像馬拉松選手，關鍵不是衝刺速度，而是跑完全程的耐力。

Julian 認為，這種「任務耐力」的提升，比參數量更值得關注。因為這意味着模型從工具，開始變成執行者。當模型能獨立工作一整天，它就能像同事一樣被分配任務、被追蹤進度、被驗證成果。

Anthropic 內部對 Claude 的連續任務評估顯示，模型能在無人干預的情況下，連續工作 6 到 8 小時，完成從寫代碼到總結文檔的一整套流程。

Julian 強調：

「我們沒在等‘超級智能’來，只是看着任務長度從一分鍾變成一整天。」

當外界還在討論 AI 會不會替代人，實驗室里已經在問：它今天能干多長時間？

第二節｜Claude 的底層能力，不是記得多

「不是每個模型都能獨立完成任務，更不是每個模型都能連續工作一整天。」

Julian 解釋，Claude 能力的本質，不只是語言模型更大，而是多了一種「預演未來」的能力。

「Claude 背后的關鍵不是參數量，而是它內部有一個‘世界模型’，能模擬未來幾步可能會發生什麼。」

這個「世界模型」（world model），不是在記住數據，也不是預測詞。它更像是人在腦子里想象：我如果説這句話，對方可能怎麼反應？那我接下來該怎麼辦？

Julian 説，這種模型已經不是在「回答」，而是在「思考」。

這種能力，其實是他在 MuZero 時期就開始探索的技術路線。

MuZero 是 DeepMind 在 2020 年提出的強化學習模型，最大的突破在於：它不需要知道完整的規則或環境，只靠經驗就能學會在腦中預測接下來的幾步，並不斷修正。

Julian 總結這套方法時，説：

人類不會事先記住整個世界，而是通過想象下一步的結果，來決定行動。AI也應該這樣。

這就是 Claude 不同的地方：它不再是一個生成句子的工具，而是一個能夠模擬因果、進行試探、修正路徑的行動者。

要實現這種「預演」，靠的不是單一的預訓練，而是訓練之后的強化學習。強化學習的過程，就像讓模型反覆練習，直到它學會自己做判斷、走對流程。

預訓練讓模型掌握知識，強化學習讓它學會執行任務。

換句話説，一個是「知道答案」，一個是「找到通往答案的路徑」。沒有強化學習，模型即使知道答案，也無法自己找到那條通往答案的路徑。

他提到 Claude 的一個實驗：給模型一個複雜任務，比如寫一段帶測試的 API 代碼，要求它：

自己規劃寫法；
判斷什麼時候用哪個函數；
在出錯時自己調試；
最后輸出一段可運行的代碼。

Claude 做到了，而且中間幾次糾錯都是它自己意識到問題並重寫的。

這種能力來自世界模型與強化學習的結合：模型不再只是回答問題，而是能在內部推演路徑、拆解任務、預判結果、修正錯誤。

它已經從語言模型，進化成了行動模型。

第三節｜從回答到接活：Claude 能干事了

Claude 和以往的語言模型有什麼不同？

Julian 的回答非常簡單：

Claude 不是聊天機器人了，而是你可以交任務給它做的執行者。

他説，在Anthropic內部，他們早已不再用 Claude 做「答題器」，而是讓它處理真實任務，比如：

寫一段可運行的 API 代碼

閲讀上千字的PDF文件，總結並列出關鍵要點

執行一整套文檔處理流程，包括改寫、格式化、生成摘要

更重要的是，這些任務由Claude分階段自主完成，無需人工干預。

Julian 指出，過去幾年行業里流行的「提示工程」（prompt engineering），本質上是人類給模型設好路，讓它照着走。但今天，Claude 的核心能力是「承接任務」：你不需要一步步指揮它，而是給出目標，它會自己拆分、執行、複查、完成。

這正是智能體（agent）開始成型的關鍵特徵。

它不是靠記憶做題，而是靠連續思考和行動完成任務。

他舉了 Claude Code 和 Claude Agent SDK 的例子。這是 Anthropic 最近內部重構的兩項重點模塊，目標就是：讓模型能像數字員工一樣處理長流程、多步驟任務。

Claude Code 能做到：

在你沒有寫完整需求文檔的情況下，推理出應該怎麼搭建功能

自己在代碼中加入調試語句，定位 bug
寫完代碼后，為你生成測試樣例
根據測試結果，再自動改寫邏輯

而 Claude Agent SDK 更進一步，它能執行更復雜的多步任務，比如：

打開工具 → 查找資料 → 寫入文檔 → 檢查輸出 → 清理中間結果
如果流程中途失敗，會自動記錄失敗原因並嘗試重試

Julian 這樣描述：你現在給 Claude 的不是一句話的問題，而是一張任務清單。

而這正是 Claude 與傳統模型之間最本質的區別：傳統模型只負責回答問題，依賴提示指令，完成單輪互動；而 Claude 已經能自主分解任務、多輪執行、自我糾錯。

它已經從工具，變成了能交付成果的合作者。

第四節｜做對一遍容易，做對十遍難

如果説 Claude 已經能干活，那接下來的問題就是：它每次都能順利做完嗎？

Julian 給出的答案是：不一定。

他説，這正是今天做智能體最現實的挑戰：

我們並不是擔心模型不夠聰明，而是它能不能穩定地把任務做完、不出錯、不走偏。

AI 不是沒有能力，而是太容易被小問題打斷。

比如：

在一個文檔流程中，模型前半段處理得很好，但后半段突然格式錯亂；

在執行某個代碼改寫任務時，模型一開始理解正確，后來卻忘記了最初的目標；

或者某個環節失敗了，模型沒有判斷出錯在哪里，繼續錯下去。

核心癥結在於：預訓練學到的知識很多，但它不會告訴你「什麼時候要停下來」，也不會告訴你「這一步走得對不對」。

也就是説，模型並不是真的知道自己在做什麼。

這時，Anthropic 的做法，是引入「強化學習」和「行為獎勵」，讓模型在每一步執行中有反饋、有方向感。

但這件事比想象中難得多。

強化學習有一個「反饋迴路」：你訓練出的模型，會用來產生新的訓練數據，如果某個環節出了偏差，整個鏈條就會跑偏。

這和預訓練完全不同。預訓練像是在填空，目標是確定的；強化學習更像是在走一條不斷修正方向的迷宮，每一步走錯，都可能讓模型偏離軌道。

所以 Anthropic 開始嘗試幾種解決方式。

第一種叫過程獎勵（process-based reward），

不只是看最終結果對不對，而是給模型每一步都設一個參考點。

與其只獎勵模型最后做出好答案，不如在它每一次推理、每一箇中間步驟上，給出反饋。這就像老師不僅看你做出對的答案，還看你解題的過程。

第二種方法是自我驗證。

Anthropic 在一些數學任務和代碼任務中，讓模型生成答案之后，自己反過來驗證一遍。比如寫一段證明，模型必須能自己檢查邏輯有沒有漏洞，才能得分。

這樣能大大減少模型表面做對、實際做錯的情況。

第三種，是在模型的「行為鏈」里加入錯誤修正機制。

「一個模型真正厲害的標誌，不是它不會犯錯，而是它知道自己錯了，並主動改正。」

Anthropic 讓 Claude 在任務中途，如果出現異常結果，能主動暫停、記錄失敗原因、重試流程。有點像你工作中一邊做一邊留備份，出錯了能回退。

Julian 坦言，這些嘗試仍然在早期：我們還在探索如何讓這些方法更穩定、可規模化。這就是所以智能體要跨過去的一道坎，關鍵不在能力，而在可靠性和執行的穩定性。

今天的挑戰不是模型太笨，而是它太容易因失誤而偏離軌道。

第五節｜節奏在加快，窗口期已經開始

在這場深度對話中，Julian反覆強調三件關鍵事實：

任務在變長- 每三四個月，模型能獨立完成的任務長度就翻倍

模型在干活- AI已經從回答問題進化到執行任務

節奏在加快- 不是十年后才改變，而是現在就要重構工作方式

那麼，我們該如何判斷這個趨勢？他的回答是：

不要靠情緒、熱度、感覺來判斷 AI 發展到了哪一步。看任務，看數據，看它到底做了什麼。

在他看來，現在市場上對 AI 的討論，很多都停留在「是不是泡沫」「是不是突破」這些模糊話題上。但前沿實驗室看的是：

模型能不能完成真實任務？

完成得有沒有提高？

交給它之后有沒有人持續使用？

這就是 Anthropic、OpenAI 和 Google 當前內部真正關注的評估維度。

比如 OpenAI 推出的 GDP-Val，就是讓真實行業專家設計任務，讓模型來完成，然后和真人的成果對比。不是看模型「答題得分」，而是看它是否具備實際完成工作的能力。

Julian 特別指出兩個指標，是當前最有參考價值的：

一是任務長度

AI 能連續工作多久？是 10 分鍾，還是一整天？

模型完成任務的時間越長，就代表你可以託付的範圍越大，節省的人工就越多。

二是用户留存與複用

不是模型能不能用，而是大家願不願意持續用、是不是開始形成依賴。

你發佈一個新模型，幾天后用户就不再用了，那這個模型可能只是看起來強大，真正能持續產生生產力的 AI，一定會有使用量和留存增長。

當任務長度越來越長，用户使用頻次越來越高，那説明 AI 不再是「功能」，而是開始成為「勞動力」。

那麼，你該怎麼辦？

不是要做判斷，而是去做實驗。

把一項你平常要做 4 小時的任務交給 AI，試試看它能做多少，做得多好。連續做幾次，你自然知道現在 AI 到哪了。

他説，自己每天都在做這樣的嘗試，每次的表現都在提升：完成得更多，失敗更少。

也正因如此，他認為：2025年，不是超級智能來了，而是我們終於可以重構任務。把原來需要人一步步完成的流程，交給模型切塊處理；把以前要人工推進的工作，設計成可以交代給 AI 的清單。

不是替代，而是重構「怎麼完成任務」的方式。

結語｜不是「AI 超人類」，而是「AI 搭班子」

在 AlphaGo「第37手」到今天的 Claude，Julian 見證了 AI 能力的指數級增長。

但他的建議始終務實：

「不要只看發佈會和排行榜，要看模型能不能連續工作八小時不出錯。不要期待一次性替代，要練習把任務清單交給 AI。」

更重要的是：不是等待突破，而是現在就開始搭建「AI+人」的協作團隊。

因為當任務在變長，當模型在干活，當窗口期已經打開，

改變不在未來，就在當下。

參考資料：

https://www.youtube.com/watch?v=gTlxCrsUcFM&t=54s

https://ppc.land/ai-researcher-challenges-claims-of-development-slowdown-with-exponential-data

https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

來源：官方媒體/網絡新聞

本文來自微信公眾號「AI 深度研究員」，作者：AI深度研究員，編輯：深思，36氪經授權發佈。

Anthropic 頂級研究員：AI 進入指數增長，你需要看懂這三件事

第一節｜模型能跑多久，纔是關鍵

第二節｜Claude 的底層能力，不是記得多

第三節｜從回答到接活：Claude 能干事了

第四節｜做對一遍容易，做對十遍難

第五節｜節奏在加快，窗口期已經開始

結語｜不是「AI 超人類」，而是「AI 搭班子」

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？