繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

VLA死了,遙操也死了!英偉達機器人一號位説的

2026-05-09 13:00

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

VLA已死,世界動作模型當立。遙操已死,人類的傳感器數據長存。

在今年的紅杉AI Ascent 2026上,Jim Fan只用了20分鍾,就給機器人行業連開了兩場「葬禮」。

第一場,送別過去三年幾乎統治具身智能的VLA;第二場,送別所有人以為還能再吃很多年的遙操作。

作為現任英偉達機器人方向負責人,Jim Fan去年還在同一張講臺上講機器人如何通過測試。今年,他已經開始討論——

舊範式怎麼死,新範式怎麼立。

而這一新範式在Jim眼里,很大程度上得靠抄LLM的作業。

預訓練模擬下一個世界狀態,對應LLM的next token prediction;

動作微調校準對真實機器人有價值的部分,對應supervised finetuning;

最后,由強化學習完成最后一里路。

過去一段時間,英偉達陸續放出EgoScale、DreamDojo、Dream Zero等一系列工作,幾乎以一己之力定義了具身智能2026年的走向。

而在這場名叫Robotics: Endgame(機器人聯盟,終局之戰)的演講中,則匯聚了Jim Fan關於VLA世界模型遙操作UMIegocentric仿真Scaling Law等機器人領域思考的最新沉澱,十分值得一看。

以下是演講核心觀點摘錄:

  • VLA已死,WAM將作為新的預訓練範式。

  • 未來一到兩年,遙操佔比會降到幾乎可以忽略不計。機器人的「主食」會變成第一視角人類視頻,整個數據範式轉向Sensorized Human Data(人類傳感器數據)。

  • 人類第一視角視頻成功啟示了機器人領域的scaling law,英偉達將徹底押注第一視角人類視頻。

  • 算力=環境=數據。

  • 機器人科技樹只剩三個成就待解鎖,物理圖靈測試(2-3年內)、Physical API、Physical Auto Research,2040年有望全部點亮。

以下為演講全文。

(為方便閲讀,做了適當的潤色與刪減)

機器人聯盟:終局之戰

2016年的一個夏日,我就在我們現在坐的辦公室里。有一個身穿亮皮夾克、手臂粗壯的家伙,舉着一個大金屬託盤。

他在上面寫道:致Elon和OpenAI團隊,致計算與人類的未來,我將向你們展示世界上第一臺DGX1。

那是我第一次見到黃仁勛。和任何優秀的實習生一樣,我迫不及待地排隊簽上自己的名字。

你能找到嗎?我的名字在這里,還有Andrej Karpathy的名字。

那時,我完全不知道自己將要經歷什麼。而接下來的事情,沒人能比Ilya本人描述得更好:

如果你相信深度學習,那它也會相信你。

果然,他們對深度學習的信念感染了我們每一個人。

三步函數,六年時間,這就是我們到今天的全部歷程。

第一步(2020年),GPT-3預訓練。預測下一個詞元(next token prediction)主要是學習語法規則,理解語言結構,模擬思想、代碼和字符串的展開方式。

第二步(2022年),InstructGPT(指令GPT)通過監督微調對模擬進行校準,使其能夠執行實際任務,或使用強化學習超越模仿學習。

第三步(2026年),自動化研究(autoresearch)加速整個循環,超越人類能力。

正如Andrej所説,所有付出都在向最終目標衝刺,對於LMS(語言模型系統)來説,他們正處於終局階段。

老實説,我非常羨慕,看Andrej的笑容就知道他有多開心。

語言模型團隊正在享受他們的巔峰時刻,他們正在極速開發AGI(通用人工智能),並將路上的創造稱之為「神話(myhtos)」。

那為什麼搞機器人的不能也享受這種樂趣呢?

作為自尊心強的科學家,我複製了他們的思路並將它重新命名——「大平行(Great Parallel)」。

我們不再模擬字符串,而是模擬物理世界的下一個狀態(next physical world state),然后通過動作微調(action finetuning)校準模擬中對真實機器人有價值的部分,並讓強化學習完成最后一里路。

大平行就是複製語言模型的成功策略。打不過他們,就加入。

接下來的章節就到了——機器人聯盟:終局之戰(Robotics:The End Game)。

抱歉,我忍不住開個小玩笑,香蕉太有趣了,感謝哈薩比斯。

如何玩轉終局?歸結為兩點:模型策略(models trategy)和數據策略(data strategy)。

先看模型策略。過去三年,視覺-語言-動作模型(VisualLanguageActionModels,VLA)佔據主導,Pi和Gr00t等模型也屬於這一類。

我們假設預訓練由VLM(視覺語言模型,Visual Language Model)完成,然后在其上添加動作頭(action head)。

但實際上,這些模型都是LVA(語言視覺動作模型,Language Visual Action),大部分參數用於語言,使語言成為核心,其次是視覺和動作。

在VLA里,語言纔是一等公民,視覺和動作只能靠邊站。

設計上,VLA更擅長編碼知識和名詞,但在物理和動詞方面表現不足,有點「頭重腳輕」。

我最喜歡VLA原論文(RT-2)中的例子,把代碼移動到泰勒·斯威夫特(TaylorSwift)的圖片上。

它從未見過她,卻能泛化,但這並不是我們想要的預訓練能力。

那麼,第二條預訓練範式是什麼?

我們認為,第二種預訓練範式理應應該非常美麗,但不幸的是,它變成了AI視頻垃圾(AI Video Slop),比如看貓咪在監控攝像頭上彈班卓琴。

這雖然表面上看很娛樂,但沒人認真對待它,直到我們意識到這些視頻模型實際上在內部學習模擬下一個世界狀態。

這是Veo3的一些例子,模型自動學習了重力、浮力、光照、反射、折射等物理規律,沒有顯式編碼,通過大規模預測下一團像素,物理規律自己涌現了,視覺規劃也自然出現。

Veo-3是如何解決這些物體的?通過在像素空間前向模擬。特別注意右下角,這是我最喜歡的例子。Veo3超聰明,它能發現如果你沒看,幾何就是可選的。我稱之為「物理垃圾(physics slop)」。

如何讓這些世界模型有用?我們通過動作微調,將所有可能的未來狀態的疊加(superposition)壓縮到對真實機器人有價值的部分。

於是,就有了Dream Zero。

Dream Zero是一種全新的策略模型。它會先「夢」到未來幾秒鍾里可能發生什麼,然后再據此做出動作。

要知道,機器人的運動控制本質上是一組高維、連續的信號。從某種意義上説,它和像素並沒有本質區別,都可以被看作連續變化的數據流。

所以,我們可以像渲染視頻一樣,同時把動作也渲染出來。

Dream Zero能同時解碼兩個東西,下一刻的世界狀態,以及下一步該執行的動作。

也正因為如此,它能夠零樣本(zero-shot)完成那些訓練中從未見過的新任務、新動作。

更有意思的是,當機器人真正開始執行時,我們甚至可以實時「看到」它正在想什麼,而且這種相關性非常緊密。

如果視頻預測是對的,動作通常就是對的;
如果視頻開始幻覺,動作也往往會失敗。

所以,也直到這里,視覺和行動才第一次真正坐到了一張桌子上。

我們后來用Dream Zero做了很多有趣的實驗,就讓機器人在實驗室里到處轉,然后往prompt輸入框里隨便打各種指令,看看它會怎麼做。

當然,Dream Zero現在還做不到把每個任務都100%穩定完成。

不過,它有點像GPT-2,雖然未必每次都精準,但它幾乎總能先把動作的大致「形狀」做對。

Dream Zero,是我們邁向機器人「開放式任務」和「開放詞匯提示」(open-ended, open-vocabulary prompting)的第一步。

我們把這類全新的模型稱為:World Action Models,簡稱WAM——世界動作模型。

所以此刻,讓我們一起為我們的老朋友VLA 默哀片刻。

它們曾經很好地服務過我們。安息吧,VLA。VLA已死,WAM當立。

而要實現WAM,接下來要拼的,就是下一代數據策略。

畫面里的這個人,是Bill Dally,正在我們實驗室里親自做遙操作。

考慮到他的薪水,我敢説這大概是我們整個數據集里,成本最高的一條遙操作軌跡。

過去三年,機器人領域幾乎被遙操所統治。那簡直是遙操的黃金時代。

各種VR頭顯、為低延迟串流做極致優化的系統、還有那些結構複雜、看起來像中世紀刑具一樣的遙操作設備。

整個行業砸了大量資金。也經受了大量痛苦。

但問題是遙操的數據產能從物理上就有上限。理論上,一臺機器人一天最多也就24小時的數據。

但説實話,如果現實里每臺機器人一天能穩定採到3小時,就已經謝天謝地了。

而且前提還是——機器人之神今天心情不錯。因為這些家伙,真的隔三差五就鬧脾氣(機器人故障)。

那問題來了,我們還能做得更好嗎?

有人的答案是直接把機器人的手,戴在你自己的手上。

這套系統叫UMI(Universal Manipulation Interface,通用操作接口)。

它的想法簡單得近乎狡猾你把機器人穿在自己手上。你的手怎麼動,機器人就怎麼動。與此同時,把機器人其余身體部分,統統從數據採集閉環里拿掉。

換句話説,直接用人類的手,去採機器人需要的數據。

在我看來,UMI可能是機器人數據領域最偉大的論文之一。而它最終催生了兩家獨角獸公司。

左邊,是Generalist團隊成員把這個設計進一步優化。現在,你可以直接把機械夾爪戴在自己的手上。

右邊,則是Sunday做出的三指數據手套。

而去年,我們又往前邁了一步。我們設計出了一套外骨骼(exoskeleton)系統,它和五指靈巧機器人手之間,能夠做到1:1映射。

我們把它叫做DexUMI,來看實際效果。

左邊,是最傳統也最快的數據採集方式,人類直接完成操作,永遠是最快的。

右邊,是遙操作。你會發現這有多難。畫面里這位操作員,是我們團隊最熟練的PhD之一。

即便如此,他仍然得極其小心地對齊、校準。整個過程又慢又累。而且,成功率也不高。

中間,就是我們的方案。你只需要戴上這套外骨骼,直接完成動作,數據就同步被採集下來。然后,我們用這些數據訓練機器人策略模型。

而你現在看到的,是一個完全自主執行的機器人策略。最關鍵的是它訓練過程中,使用的遙操數據是零。

這意味着,我們第一次打破了那個機器人領域的詛咒,每臺機器人每天最多隻能採24小時數據。而且你看這些機器人有多開心。因為,它們終於不用再親自參與數據採集了。

但問題來了,這就是終點嗎?我們真的解決了機器人的scaling問題嗎?

在場有人開Tesla或Waymo嗎?開車的時候,其實你一直都在參與世界上最大的物理數據飛輪。

更妙的是,你甚至感覺不到。尤其是在Tesla FSD工作的時候,數據上傳,是一個悄無聲息、在后台自動完成的過程。

但戴着UMI這種數據穿戴設備呢?

説實話,還是太麻煩了。它依然是侵入式的。遠沒有每天開車去上班那樣自然。所以,我們需要一個屬於機器人的FSD等價物。

我們需要讓數據採集,徹底退出前臺,融入背景,悄無聲息地發生。只有這樣,我們才能真正捕捉到,人類靈巧操作最完整的樣子。

不只是實驗室。而是各行各業,而是所有具備經濟價值的勞動場景。

基於此,我們徹底押注在第一視角人類視頻(human egocentric videos)。並且給這些視頻加入精細的手部位置追蹤;高密度語言標註。

我們把這套訓練範式叫做EgoScale。在EgoScale中,99.9%的訓練數據,全部來自人類第一視角視頻。

最終的結果是一個真正end-to-end的機器人策略模型。它能夠直接從攝像頭像素輸入,映射到擁有22個高自由度的靈巧機器人手。一句話就是,從「看見」,直接到「動手」。

你現在看到的,就是一個完全自主執行的機器人。

在預訓練階段,我們用EgoScale,在2.1萬小時的真實世界第一視角人類數據上進行預訓練。沒有使用任何機器人數據。

在預訓練過程中模型學習去預測手部關節位置和手腕姿態。

到了動作微調階段,我們只額外採集了50小時的高精度數據手套數據以及4小時的遙操數據,這甚至不到整個訓練數據混合中的0.1%。

而靠着EgoScale,模型已經能夠泛化到各種高度靈巧的任務。比如,整理撲克牌、操作注射器、精準轉移液體。説不定哪天,家里的機器人護士,真會因此出現。

更有意思的是,對於像折襯衫這種任務,模型在測試階段只需要一次示範就能學會全新的摺疊策略。

這篇論文里,也許最令人興奮的發現是,我們第一次發現了「機器人靈巧性」的神經scaling law。

它描述的是預訓練時長,與最優驗證損失之間的關係。這個關係,漂亮得驚人。

它幾乎是一條完美的log-linear(對數線性)曲線。距離語言模型第一次發現neural scaling law,已經過去整整六年。

如今,機器人,也終於有了自己的scaling law。如果把這些數據策略畫成一張圖:X軸,和機器人硬件的對齊程度;Y軸,可擴展性。

那大概會是這樣,遙操作在最左下角。它最貼近機器人硬件,但幾乎最難擴展。

再往上,是數據穿戴設備,它大概能擴展到幾十萬小時。

而再往上,是第一視角視頻如果我們真的能跑通機器人版的動駕駛飛輪,那它的規模,輕輕松松就能達到千萬小時級。

如果在圖上畫一條線,那這條線左邊,代表的是機器人的新範式Sensorized Human Data,人類的傳感器數據。

所以,我想大膽做幾個預測未來一到兩年,遙操的佔比會越來越低。低到幾乎可以忽略不計。

接下來,會出現大量針對不同機器人硬件、不同場景量身定製的數據穿戴設備。

而最終,機器人的「主食」,會變成第一視角人類視頻。

所以,讓我們再次為我們的老朋友,遙操,默哀片刻。

它曾經很好地服務過我們。安息吧。遙操已死。人類傳感器數據長存。

但數據策略,到這里就結束了嗎?沒有。

你注意到我畫了兩層圓。那外圈是什麼?

今天,所有前沿實驗室都在砸重金購買數百萬個代碼環境用來做強化學習。

機器人也一樣。我們迫切需要海量環境。

當然,你也可以直接在真實機器人上做RL。在我們的實驗室里,我們用RL把某些任務推到了接近100%成功率。

機器人可以連續執行幾個小時不停。説實話,看着機器人自己默默組裝GPU,還有點治癒。

正如一位智者説的Good boi(這項任務,已經通過老闆審批。)

但問題是,如果機器人也想像今天的大模型一樣,把強化學習真正推向百萬環境的規模,傳統路線幾乎走不通。

因為按過去的做法,100萬個環境幾乎就意味着你得先準備100萬臺機器人,這在成本、維護、部署上顯然都是不現實的。

於是,我們開始尋找一條全新的路。

比如,你只需要拿出一臺iPhone,隨手拍下一張現實世界的照片,再把它送進一套3D world scanning pipeline(3D世界掃描管線),系統就能自動識別場景中的所有物體,提取它們的三維結構,並進一步把這些物體自動重建到經典物理模擬器里。

更關鍵的是,這些被重建出來的物體不是靜態模型,而是真正可以被交互、被操作、被碰撞的數字實體。

接下來,研究人員還可以基於這些場景無限擴增各種變體,他們把這些變體稱為Digital Cousins。

到了這一步,iPhone不再只是手機,而變成了一個真正意義上的「口袋世界掃描儀」。

而整個流程,也被命名為Real→Sim→Real——從真實世界出發,進入仿真,再回到真實世界。

靠着這套方法,機器人終於第一次擁有了一種可以規模化地把物理世界搬進數字世界的能力。

但即便如此,這套方案本質上依然建立在傳統的圖形學模擬器之上。

那麼,我們還能不能再往前走一步?

來吧!Dream Dojo。

Dream Dojo是一套建立在視頻world model之上的、真正意義上的神經模擬器,它接收輸入的不再是傳統物理參數,而是一連串連續的動作信號;

而輸出的,則是機器人下一刻將會看到的RGB視頻畫面,以及對應的傳感器狀態,並且這一切都是實時生成的。

換句話説,你此刻看到的畫面里,沒有一個像素是真的。

Dream Dojo能夠通過一種純粹數據驅動的方式,直接捕捉並學會不同機器人背后的運動機制和動力學規律,整個過程里,沒有任何物理方程參與,也沒有任何圖形學引擎介入。

因此,機器人正在進入一個全新的post-training範式。

少量真實機器人站點負責在物理世界中持續採集高價值交互數據,而另一端則是大規模並行運行的graphics cores、world scans以及高強度推理計算,共同支撐世界模型的持續迭代。

在這個新範式里,有一個極其關鍵的等式正在成立——

算力=環境=數據。

也就是説,算力正在變成環境,環境正在變成數據,而數據本身又反過來定義下一輪算力投入,整個過程開始像自動駕駛里的FSD flywheel一樣形成自我強化的飛輪。

正如老闆半開玩笑地總結的那樣「買得越多,省得越多。」當然,這句話也已經通過他的審批。

把這一切拼在一起,你會發現,機器人正在走上一條和大模型幾乎完全平行的進化路徑,而且這一切不是未來式,而是此刻正在發生。

我們眼前看到的,也許正是機器人終局之戰的開端。

我一直最喜歡《文明》,並且喜歡把自己的研究想象成在文明科技樹上不斷解鎖成就。

如果按照我的判斷,機器人這棵科技樹上,現在只剩下最后三個成就等待被點亮,只要全部解鎖,我就可以退休了。

第一個成就,叫做物理圖靈測試。

所謂物理圖靈測試,說白了就是在足夠豐富、足夠複雜的現實任務里,人類已經無法僅靠觀察去判斷,眼前完成工作的到底是人類,還是機器人。

它並不神祕,無非就是單位能源輸入,單位勞動力輸出。只要同樣的能量輸入能夠產出同等級的勞動價值,機器人就真正通過了物理世界里的圖靈測試。

也許喝醉的人類不算在內,而看看今天機器人那些還有些「僵硬甚至略顯性感」的動作姿態,我們顯然還有很多工作要做,但如果一切順利,他認為這件事距離我們可能只剩下兩到三年。

第二個成就,叫做Physical API。

那時候,機器人將不再是一臺臺獨立存在的機器,而會像今天的軟件服務一樣,變成一種真正可編程、可調用、可編排的基礎設施。

你擁有的可能不再是一臺機器人,而是一整個艦隊,而你控制它們的方式,也不再是按鈕和控制器,而是API、CLI以及更高級的編制系統。

也許某一天,這一切甚至會由比今天更強大的agent,比如Opus4.6,統一進行調度。

而一旦Physical API真正出現,很多今天聽起來像科幻的東西都會迅速落地。

比如所謂的Lighthouse Factories——燈塔工廠,它們本質上不再是流水線,而更像「原子打印機」,你輸入的不再是CAD圖紙,甚至不需要複雜工程文件,而可能只是一份markdown文檔,輸出的卻是已經完全組裝好的實體產品,整個過程完全自主完成;

又比如wet labs,也就是自動化濕實驗室,機器人將獨立完成化學實驗、生物實驗乃至藥物研發,把科學發現的速度推到人類實驗室從未達到過的高度。

而最后一個,也是機器人科技樹上的終極成就,叫做Physical Auto Research。

到了那一天,機器人將不再只是執行人類交給它們的任務,它們會開始自己設計自己,自己優化自己,自己製造下一代自己,並且迭代速度將遠遠超越任何人類工程團隊所能達到的極限。

聽到這里,你也許會覺得,這聽起來已經太像科幻了,我們這一代人真的有機會看到嗎?

從2012年AlexNet完成第一次forward pass開始,那個連貓和狗都分得磕磕絆絆的模型。

到今天,整個AI community只用了14年,就走到了agentic AI時代。

而今天是2026年,如果機器人也遵循類似的指數曲線,那我們不妨再給它14年,2026年剛好站在2012年和2040年的正中間,而技術從來不是線性前進的,它永遠以指數形式爆發。

所以,我有95%的把握,在2040年之前,我們會真正走到機器人科技樹的終點,而等那一天到來時,我們依然年輕。

如果你相信機器人,機器人終將回應你的相信。

我們的這一代人,也許出生得太晚,沒趕上探索地球,也出生得太早,還沒趕上探索星辰,但我們出生得剛剛好,因為我們正好趕上,去解決機器人。

演講鏈接

[1]https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

責任編輯:劉生傲

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。