熱門資訊> 正文
2026-05-19 20:37
就在剛剛過去的4月底,紅杉資本舉辦的AI Ascent 2026大會上,英偉達機器人方向負責人Jim Fan拋出了一個極具爭議的論斷:「視覺語言模型VLA已死,世界動作模型WAM當立。」他還預測,未來一到兩年內,機器人學習的主要數據來源將從昂貴的人類遙控操作,轉變為互聯網上隨手可得的第一視角人類視頻。
這番話一出,立刻在具身智能領域引發軒然大波。
而就在Jim Fan發言前不久,國內具身智能公司銀河通用聯合英偉達、清華、北大發布的LDA-1B模型,已經明確走出了「拋棄條件反射式模仿,走世界模型路線」的一步。與此同時,生數科技推出的通用世界行動模型Motubrain,在WorldArena與RoboTwin 2.0兩項國際權威榜單上雙雙登頂。
Jim Fan的發言和科技公司的實踐讓有人高呼「終於找對了方向」,也有人冷笑「英偉達又在為自己造勢」。支持者認為,這是機器人從模仿走向理解的必經之路;反對者則指出,VLA在精細控制上的優勢依然不可替代。
那麼,這場關於機器人大腦的路線之爭,到底在爭什麼?VLA真的已經是具身智能的昨日黃花了嗎?這場技術之變,對具身智能初創公司有什麼影響?
要理解WAM的價值,得先搞清楚VLA的問題出在哪。
VLA的訓練邏輯很直觀:模仿人類遙控操作。你教它拿紅色的杯子,它就記住了紅色杯子的畫面和對應的動作。下次看到同樣的杯子,它就能拿起來。
但現實不是實驗室。杯子顏色、光線會變化。這些在人類看來微不足道的變化,對VLA機器人來説卻是巨大的挑戰。換言之,VLA學習到的是一種極其脆弱的、標準化的「條件反射」,很難推廣到複雜的現實場景。
WAM提供了完全不同的思路。它的核心是預測和理解。WAM試圖讓機器人在執行動作之前,先在內部模型里預演一下:這個動作之后,物體會怎麼移動,液體會怎麼流動,整個場景會發生什麼變化。
這種物理想象力帶來的第一個突破,是泛化能力的躍升。一個訓練充分的WAM機器人,即使走進一間從未見過的廚房,也能基於對重力、摩擦力、慣性的理解,做出合理判斷。HarmoWAM的研究表明,在背景、位置、物體語義都發生變化的零樣本場景中,WAM的表現比之前的SOTA級別VLA模型提升了33%。
泛化能力的突破之外,WAM還完成了另一件更具產業意義的事情:對數據來源的結構性松綁。
VLA長期被困在遙操作數據這座昂貴的小島上,每一幀操作數據都需要真人遙控、真機採集。而WAM可以像大語言模型學習互聯網文本一樣,去學習海量的、現成的、每天都在產生的人類第一視角視頻。這意味着,WAM讓機器人第一次擁有了從互聯網視頻中自學物理世界的可能性。智在無界的Being-H0.7直接用20萬小時的人類視頻進行預訓練,證明了這條路的可行性。銀河通用的LDA模型更進一步,把仿真數據、人類視頻和機器人操作數據混在一起聯合訓練,打破了行業長期存在的「完美數據迷信」。
不僅如此,WAM還在另一個長期困擾機器人領域的難題上取得了進展,那就是長程任務能力。VLA通常只能處理兩到三個動作的簡單任務,時序稍有拉長就容易迷失。而WAM的表現已經開始脱離Demo階段。生數科技的Motubrain已經能夠完成十個原子動作級別的複雜任務,這意味着機器人在真實場景中具備了更連續、更魯棒的執行能力。
國內團隊在這條賽道上的進展速度,值得關注。銀河通用的LDA-1B有清華大學、北京大學和英偉達的聯合署名;生數科技的Motubrain登頂兩項國際榜單;智在無界的Being-H0.7綜合排名全球第一。
與此同時,海外前沿實驗室同樣在快速推進。英偉達提出的DreamZero在真機實驗中展現出對新任務和新環境的強大泛化能力,較頂尖VLA模型提升2倍以上。
在這個新賽道上,國內和國外幾乎是站在同一起跑線上。但熱鬧背后,一個更根本的問題浮出水面:VLA真的該退場了嗎?
WAM的方向是對的,但「VLA已死」這個判斷,需要冷靜審視。
一方面,WAM確實展現了令人興奮的技術潛力,它讓機器人從機械模仿走向理解、預測物理世界,從依賴昂貴遙操數據轉向利用海量人類視頻。智在無界用20萬小時人類視頻預訓練的Being-H0.7,能夠在6項國際評測中拿下綜合排名第一,這在前VLA時代是不可想象的。
另一方面,這套判斷背后也有一套商業敍事。理解這一點,不妨先看看到底是誰在説「VLA已死」。
英偉達是全球最大的AI芯片供應商。無論VLA還是WAM,底層算力都跑在它的芯片上。但兩者的算力消耗不在一個量級。WAM需要對海量視頻數據進行預訓練,推理時還要進行復雜的物理模擬或擴散生成,對GPU算力的需求遠超VLA。Jim Fan力推WAM,對英偉達來説意味着更大的芯片出貨量和更高的單價。一家芯片公司,當然希望市場轉向那些更「吃」算力的技術路線。
但作為觀察者,我們在接受一套技術敍事時,有必要區分哪些是客觀的技術突破,哪些是被商業立場放大的預期。拋開商業立場,WAM自身也還有硬骨頭要啃。
一方面,由於視頻生成目標更關注像素級一致性而非關節級精細控制,在需要毫米級定位或雙臂協同的精密裝配任務中,WAM的表現明顯弱於專注動作優化的VLA模型,且推理延迟雖然經過優化仍高於后者。
另一方面,數據與算力門檻也不低。聯合訓練視頻與動作需要海量真機交互數據和高昂的擴散模型訓練成本,遠非所有團隊都能承擔。
並且,當任務涉及抽象語言指令或複雜社交語境時,純物理世界建模容易看懂畫面但聽不懂人話。這説明,WAM雖然在「理解物理世界」這個方向上邁出了重要一步,但在「走進現實」這件事上,還有相當長的路要走。而耐人尋味的是,這恰恰是VLA的舒適區。
事實上,VLA在現階段仍有WAM難以替代的價值。
先看部署效率。在需要毫米級精度和實時力度調整的任務中,比如精密裝配、手術輔助,VLA的輕量化架構更容易實現實時部署。VLA的本質是端到端的「觀察-動作」映射,推理時不需要複雜的物理模擬,計算開銷小、響應速度快。一個成熟的VLA系統可以在邊緣設備上以較低的算力成本運行。
再看工程成熟度。VLA經過一年多的快速發展,模型架構已經相當成熟,有大量開源模型可供參考,生態工具也比較完善。從數據採集、模型訓練到部署推理,整個流程已經有了相對標準的方案。一個創業團隊可以在較短時間內搭建起一套可用的VLA系統。WAM的架構更復雜,訓練更不穩定,推理計算開銷大,工程化落地的門檻明顯更高。
還有一個容易被忽視的維度:與現有工業體系的兼容性。在工業機器人領域,大量自動化任務不需要複雜的物理理解,只需要穩定、可靠、高精度的重複執行。VLA的模仿學習範式與工業場景的需求天然契合。企業可以通過少量的示範,教會機器人完成特定的操作任務。
所以,更可能發生的演進路徑不是「VLA被淘汰」,而是兩者的深度融合。「VLA已死」是一個極具傳播力的口號,但把它當成技術判決書來讀可能為時過早。它更像是一聲警鍾,提醒行業不要停留在VLA的舒適區里,而是思考如何將物理理解的能力融入現有框架。
那麼,就在WAM是否代替VLA的討論正盛之時,那些押注VLA的創業公司,正在經歷什麼?
從VLA的崛起到被質疑「已死」,中間不過半年多的時間。機器人領域的技術迭代速度,已經快到了讓產業感到窒息的程度。對於家大業大的科技巨頭來説,這或許只是研究方向的調整,但對於資源有限的初創企業而言,每一次「變天」都可能是一場需要重新押注的賭局。
這一切的起點,首先是研發路線上巨大的沉沒成本風險。
過去一年,大量初創企業圍繞VLA構建技術棧,投入重金採購遙操作設備,組建專門的數據採集團隊。創始人相信,積累高質量的遙操作數據就是未來的護城河。自變量機器人在2023年底成立后,先后完成了B輪近20億元融資,累計融資超過40億元,其中相當一部分用於數據採集工廠建設和真機數據採集團隊搭建。智平方在一年內完成12輪融資,累計融資金額超過10億元,其自建產線於2025年9月投產,同年12月實現單月百台級AlphaBot 2交付。毫無疑問,這些數字背后是一整套圍繞VLA建立起來的資產、團隊和認知框架。
然而,當WAM的浪潮襲來,這些投入的價值正在被重新評估。對於剛剛完成大額融資、團隊規模已擴張至數百人的公司來説,方向調整意味着巨大的沉沒成本。
技術路線的切換很快在人才市場上引發了連鎖反應。
VLA時代,行業需要的是擅長模仿學習、遙操作數據採集的人才;WAM時代,人才需求轉向視頻理解、物理仿真、世界模型構建。技能組合的快速變化,讓創業公司剛剛建立起來的團隊結構面臨重構壓力。
並且,技術路線的快速切換意味着人才市場的供需關係也在劇烈波動,WAM方向變得熱門的同時,相關人才的溢價也在迅速攀升,而原本高薪聘請的VLA團隊則面臨流失或轉型的雙重困境。《脈脈2026春招職場洞察報告》顯示,2026年1至4月,具身智能崗位量同比暴增15倍,平均月薪從5.9萬元升至6.2萬元。有從業人員透露,行業跳槽薪資漲幅可高達150%。而對於一家資源有限的創業公司來説,既要在新方向上搶人,又要消化舊方向上的團隊慣性,這種兩頭承壓的局面並不容易應對。
比人才問題更直接的,是產品價值的存疑。
一個殘酷的現實是,當技術路線半年一變,之前基於舊路線開發的產品可能突然就失去了市場價值。比如,那些基於VLA範式、依賴遙操作數據訓練出來的機器人技能模型,在WAM的敍事下面臨重新估值。如果未來機器人的主食真的是互聯網視頻,那這些用高昂成本訓練出來的「私教」技能,還有多少客户願意買單?
而所有這些問題,最終都會反饋到資本市場上。投資人的耐心和資本市場的窗口期,未必能跟上技術的節奏。
2026年《中國投資發展報告》中給出了一個判斷:人形機器人產業投資正進入「去偽存真」的關鍵階段,估值邏輯正從概念炒作轉向訂單驗證與供應鏈卡位。報告明確指出,中游整機制造商面臨「技術路線尚未收斂的風險」,市場給予的估值溢價取決於其模塊化設計能力與軟硬件協同優化水平。
換句話説,在技術路線還在劇烈變動的階段,投資人對故事的容忍度正在快速下降。對於創業公司而言,這意味着融資不再只是講一個足夠性感的技術願景,而是要在技術尚未收斂的環境中,同時證明自己的方向判斷力和執行韌性。
回過頭看,「VLA已死」未必是事實,但它確實是一記警鍾。
在這個行業,選對方向比埋頭苦干重要得多。而選對方向的窗口期,正在變得越來越短。對於創業公司來説,這意味着必須在專注和靈活之間找到微妙的平衡;對於投資人來説,這意味着需要更加審慎地評估技術路線的可持續性,避免追逐短期的敍事熱點。
機器人產業還處在早期階段,技術路線遠未收斂。今天的主流,明天可能就變成歷史。WAM的崛起是真實的,VLA的價值也不會輕易消失。
本文來自微信公眾號 「腦極體」(ID:unity007),作者:珊瑚,36氪經授權發佈。