熱門資訊> 正文
2025-10-28 09:38
2025 年 10 月 25 日,一位鮮少公開露面的 AI 頂級研究員在播客中給出判斷
AI 沒有任何放緩的跡象。每三四個月,模型就能完成兩倍長的任務。
説這話的是Julian Schrittwieser, Anthropic 核心研究員,他曾在谷歌DeepMind 領導了AlphaGo Zero 和 MuZero 的研發。
這不是科普訪談。他來自最前沿的實驗室,正目睹一個大多數人還沒意識到的現實:
大眾看到的:回答對了幾個問題
他看到的:模型開始完成一整天的工作
為什麼察覺不到?
Julian 給出的答案是:人類直覺無法理解指數級變化。
(圖片來源:Julian Schrittwieser博文《再次未能理解指數增長》,鏈接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)
就像疫情初期人們低估傳播速度,AI 正在走同樣的路徑。當模型每三、四個月能力翻倍,關鍵不在於它有多強,而在於你看不看得懂正在發生的三件事。
Julian Schrittwieser 的職業軌跡,幾乎串起了這十年人工智能的主線。
他曾讓 AlphaGo 擊敗李世石,是 MuZero 的第一作者,如今在 Anthropic 負責Claude 模型的推理研究。
「AI 的關鍵,不在於能答多少題,而在於能連續完成多長時間的任務。」
在他眼中,AI 的進步不是一連串「功能升級」,而是任務持續時間的延長。從幾秒、幾分鍾,到現在能處理幾個小時、甚至幾天的連續任務。
Julian 在訪談中解釋,這個指標叫 task length(任務長度),是他們在 Anthropic 內部用來衡量模型「生產力水平」的核心標準。他們發現,每隔三四個月,任務長度就會翻倍。模型不像人類那樣受疲勞影響,能持續思考、持續執行,而且出錯率在長任務中反而下降。
他舉了一個例子: 以前的模型寫一段程序,需要人類不斷提示; 現在,Claude 已經能獨立寫完一個完整的應用模塊, 包括規劃結構、調用接口、測試和修復。
這不是更聰明,而是能干更久、更穩。
就像馬拉松選手,關鍵不是衝刺速度,而是跑完全程的耐力。
Julian 認為,這種「任務耐力」的提升,比參數量更值得關注。因為這意味着模型從工具,開始變成執行者。當模型能獨立工作一整天,它就能像同事一樣被分配任務、被追蹤進度、被驗證成果。
Anthropic 內部對 Claude 的連續任務評估顯示,模型能在無人干預的情況下,連續工作 6 到 8 小時,完成從寫代碼到總結文檔的一整套流程。
Julian 強調:
「我們沒在等‘超級智能’來,只是看着任務長度從一分鍾變成一整天。」
當外界還在討論 AI 會不會替代人,實驗室里已經在問: 它今天能干多長時間?
「不是每個模型都能獨立完成任務,更不是每個模型都能連續工作一整天。 」
Julian 解釋,Claude 能力的本質,不只是語言模型更大,而是多了一種「預演未來」的能力。
「Claude 背后的關鍵不是參數量,而是它內部有一個‘世界模型’,能模擬未來幾步可能會發生什麼。」
這個「世界模型」(world model),不是在記住數據,也不是預測詞。 它更像是人在腦子里想象:我如果説這句話,對方可能怎麼反應?那我接下來該怎麼辦?
Julian 説,這種模型已經不是在「回答」,而是在「思考」。
這種能力,其實是他在 MuZero 時期就開始探索的技術路線。
MuZero 是 DeepMind 在 2020 年提出的強化學習模型,最大的突破在於:它不需要知道完整的規則或環境,只靠經驗就能學會在腦中預測接下來的幾步,並不斷修正。
Julian 總結這套方法時,説:
人類不會事先記住整個世界,而是通過想象下一步的結果,來決定行動。AI也應該這樣。
這就是 Claude 不同的地方:它不再是一個生成句子的工具,而是一個能夠模擬因果、進行試探、修正路徑的行動者。
要實現這種「預演」,靠的不是單一的預訓練,而是訓練之后的強化學習。強化學習的過程,就像讓模型反覆練習,直到它學會自己做判斷、走對流程。
預訓練讓模型掌握知識,強化學習讓它學會執行任務。
換句話説,一個是「知道答案」,一個是「找到通往答案的路徑」。沒有強化學習,模型即使知道答案,也無法自己找到那條通往答案的路徑。
他提到 Claude 的一個實驗:給模型一個複雜任務,比如寫一段帶測試的 API 代碼,要求它:
Claude 做到了,而且中間幾次糾錯都是它自己意識到問題並重寫的。
這種能力來自世界模型與強化學習的結合:模型不再只是回答問題,而是能在內部推演路徑、拆解任務、預判結果、修正錯誤。
它已經從語言模型,進化成了行動模型。
Claude 和以往的語言模型有什麼不同?
Julian 的回答非常簡單:
Claude 不是聊天機器人了,而是你可以交任務給它做的執行者。
他説,在Anthropic內部,他們早已不再用 Claude 做「答題器」,而是讓它處理真實任務,比如:
寫一段可運行的 API 代碼
閲讀上千字的PDF文件,總結並列出關鍵要點
執行一整套文檔處理流程,包括改寫、格式化、生成摘要
更重要的是,這些任務由Claude分階段自主完成,無需人工干預。
Julian 指出,過去幾年行業里流行的「提示工程」(prompt engineering),本質上是人類給模型設好路,讓它照着走。 但今天,Claude 的核心能力是「承接任務」:你不需要一步步指揮它,而是給出目標,它會自己拆分、執行、複查、完成。
這正是智能體(agent)開始成型的關鍵特徵。
它不是靠記憶做題,而是靠連續思考和行動完成任務。
他舉了 Claude Code 和 Claude Agent SDK 的例子。 這是 Anthropic 最近內部重構的兩項重點模塊,目標就是:讓模型能像數字員工一樣處理長流程、多步驟任務。
Claude Code 能做到:
在你沒有寫完整需求文檔的情況下,推理出應該怎麼搭建功能
而 Claude Agent SDK 更進一步,它能執行更復雜的多步任務,比如:
Julian 這樣描述:你現在給 Claude 的不是一句話的問題,而是一張任務清單。
而這正是 Claude 與傳統模型之間最本質的區別:傳統模型只負責回答問題,依賴提示指令,完成單輪互動;而 Claude 已經能自主分解任務、多輪執行、自我糾錯。
它已經從工具,變成了能交付成果的合作者。
如果説 Claude 已經能干活,那接下來的問題就是:它每次都能順利做完嗎?
Julian 給出的答案是:不一定。
他説,這正是今天做智能體最現實的挑戰:
我們並不是擔心模型不夠聰明,而是它能不能穩定地把任務做完、不出錯、不走偏。
AI 不是沒有能力,而是太容易被小問題打斷。
比如:
在一個文檔流程中,模型前半段處理得很好,但后半段突然格式錯亂;
在執行某個代碼改寫任務時,模型一開始理解正確,后來卻忘記了最初的目標;
或者某個環節失敗了,模型沒有判斷出錯在哪里,繼續錯下去。
核心癥結在於:預訓練學到的知識很多,但它不會告訴你「什麼時候要停下來」,也不會告訴你「這一步走得對不對」。
也就是説,模型並不是真的知道自己在做什麼。
這時,Anthropic 的做法,是引入「強化學習」和「行為獎勵」,讓模型在每一步執行中有反饋、有方向感。
但這件事比想象中難得多。
強化學習有一個「反饋迴路」:你訓練出的模型,會用來產生新的訓練數據,如果某個環節出了偏差,整個鏈條就會跑偏。
這和預訓練完全不同。預訓練像是在填空,目標是確定的;強化學習更像是在走一條不斷修正方向的迷宮,每一步走錯,都可能讓模型偏離軌道。
所以 Anthropic 開始嘗試幾種解決方式。
第一種叫過程獎勵(process-based reward),
不只是看最終結果對不對,而是給模型每一步都設一個參考點。
與其只獎勵模型最后做出好答案,不如在它每一次推理、每一箇中間步驟上,給出反饋。這就像老師不僅看你做出對的答案,還看你解題的過程。
第二種方法是自我驗證。
Anthropic 在一些數學任務和代碼任務中,讓模型生成答案之后,自己反過來驗證一遍。比如寫一段證明,模型必須能自己檢查邏輯有沒有漏洞,才能得分。
這樣能大大減少模型表面做對、實際做錯的情況。
第三種,是在模型的「行為鏈」里加入錯誤修正機制。
「一個模型真正厲害的標誌,不是它不會犯錯,而是它知道自己錯了,並主動改正。」
Anthropic 讓 Claude 在任務中途,如果出現異常結果,能主動暫停、記錄失敗原因、重試流程。有點像你工作中一邊做一邊留備份,出錯了能回退。
Julian 坦言,這些嘗試仍然在早期:我們還在探索如何讓這些方法更穩定、可規模化。這就是所以智能體要跨過去的一道坎,關鍵不在能力,而在可靠性和執行的穩定性。
今天的挑戰不是模型太笨,而是它太容易因失誤而偏離軌道。
在這場深度對話中,Julian反覆強調三件關鍵事實:
任務在變長- 每三四個月,模型能獨立完成的任務長度就翻倍
模型在干活- AI已經從回答問題進化到執行任務
節奏在加快- 不是十年后才改變,而是現在就要重構工作方式
那麼,我們該如何判斷這個趨勢?他的回答是:
不要靠情緒、熱度、感覺來判斷 AI 發展到了哪一步。看任務,看數據,看它到底做了什麼。
在他看來,現在市場上對 AI 的討論,很多都停留在「是不是泡沫」「是不是突破」這些模糊話題上。但前沿實驗室看的是:
模型能不能完成真實任務?
完成得有沒有提高?
交給它之后有沒有人持續使用?
這就是 Anthropic、OpenAI 和 Google 當前內部真正關注的評估維度。
比如 OpenAI 推出的 GDP-Val,就是讓真實行業專家設計任務,讓模型來完成,然后和真人的成果對比。不是看模型「答題得分」,而是看它是否具備實際完成工作的能力。
Julian 特別指出兩個指標,是當前最有參考價值的:
一是 任務長度
AI 能連續工作多久?是 10 分鍾,還是一整天?
模型完成任務的時間越長,就代表你可以託付的範圍越大,節省的人工就越多。
二是 用户留存與複用
不是模型能不能用,而是大家願不願意持續用、是不是開始形成依賴。
你發佈一個新模型,幾天后用户就不再用了,那這個模型可能只是看起來強大,真正能持續產生生產力的 AI,一定會有使用量和留存增長。
當任務長度越來越長,用户使用頻次越來越高,那説明 AI 不再是「功能」,而是開始成為「勞動力」。
那麼,你該怎麼辦?
不是要做判斷,而是去做實驗。
把一項你平常要做 4 小時的任務交給 AI,試試看它能做多少,做得多好。連續做幾次,你自然知道現在 AI 到哪了。
他説,自己每天都在做這樣的嘗試,每次的表現都在提升:完成得更多,失敗更少。
也正因如此,他認為:2025年,不是超級智能來了,而是我們終於可以重構任務。把原來需要人一步步完成的流程,交給模型切塊處理;把以前要人工推進的工作,設計成可以交代給 AI 的清單。
不是替代,而是重構「怎麼完成任務」的方式。
在 AlphaGo「第37手」到今天的 Claude,Julian 見證了 AI 能力的指數級增長。
但他的建議始終務實:
「不要只看發佈會和排行榜,要看模型能不能連續工作八小時不出錯。不要期待一次性替代,要練習把任務清單交給 AI。」
更重要的是:不是等待突破,而是現在就開始搭建「AI+人」的協作團隊。
因為當任務在變長,當模型在干活,當窗口期已經打開,
改變不在未來,就在當下。
參考資料:
https://www.youtube.com/watch?v=gTlxCrsUcFM&t=54s
https://ppc.land/ai-researcher-challenges-claims-of-development-slowdown-with-exponential-data
https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
來源:官方媒體/網絡新聞
本文來自微信公眾號「AI 深度研究員」,作者:AI深度研究員,編輯:深思,36氪經授權發佈。