熱門資訊> 正文
2025-10-29 18:29
如果説視覺讓AI看見世界,動作讓AI改變世界,那麼——
WorldVLA正在讓AI理解世界。
顧名思義,WorldVLA是一個將視覺語言動作模型(VLA)與世界模型相融合的統一框架,由阿里巴巴達摩院、湖畔實驗室和浙江大學共同提出。
在該框架下,
世界模型通過結合對動作與圖像的理解來預測未來圖像,旨在學習環境的潛在物理規律,以提升動作生成的準確性;
動作模型則基於圖像觀測生成后續動作,不僅有助於視覺理解,還反向促進世界模型的視覺生成能力。
實驗結果表明,WorldVLA的表現顯著優於獨立的動作模型與世界模型,充分體現了二者之間的相互增強效應。
下面具體來看。
如今,VLA和世界模型雖在分頭並進,但其在功能上的侷限已成為制約發展的關鍵瓶頸:
VLA模型:基於預訓練多模態大語言模型(MLLM)構建,雖具備跨機器人任務泛化能力,但僅將動作作為輸出,未深度整合為輸入進行分析,缺乏對動作的全面理解。
世界模型:能基於當前觀測和動作預測未來視覺狀態,理解視覺信息與行為動態,但無法直接生成動作,在需明確動作規劃的場景中應用受限。
爲了解決上述難題,研究團隊提出了WorldVLA——一種用於統一動作與圖像理解和生成的自迴歸動作世界模型。
團隊基於Chameleon模型進行初始化,讓WorldVLA使用三套獨立的分詞器(tokenizer) 對圖像、文本和動作進行編碼。
圖像分詞器採用VQ-GAN模型(一種結合向量量化與生成對抗網絡的圖像生成模型),並針對特定圖像區域(如人臉、顯著物體等)引入了感知損失優化。
值得一提的是,該分詞器的壓縮比為16,碼本大小為8192。對於256×256的圖像,會生成256個token;對於512×512的圖像,則生成1024個token。
動作分詞器將連續的機器人動作的每個維度離散化為256個區間,區間寬度根據訓練數據的範圍確定。動作由7個token表示,包括3個相對位置、3個相對角度,以及1個絕對夾爪狀態。
文本分詞器採用訓練好的BPE分詞器,詞表大小為65536,其中包括8192個圖像token和256個動作token。
所有文本、動作和圖像都被離散化為token,並以自迴歸方式進行訓練。
自迴歸模型中的標準注意力機制通常採用因果注意力掩碼(causal attention mask),即當前token只能訪問前面的token信息,而無法獲取后續token的信息,如下圖 (a) 所示。
然而,這種傳統配置在生成動作塊(即多個連續動作)時存在明顯不足。在默認注意力掩碼下,早期動作產生的錯誤會傳遞到后續動作,從而導致性能下降。
爲了解決這一問題,團隊提出了一種針對動作生成的替代注意力掩碼,如上圖 (b) 所示。該掩碼確保當前動作的生成僅依賴文本和視覺輸入,而屏蔽之前動作的影響。
這種設計使自迴歸框架能夠並行生成多個動作,世界模型部分則仍遵循傳統的因果注意力掩碼,如上圖(c) 所示。
之后,團隊通過融合動作模型數據與世界模型數據對WorldVLA進行聯合訓練。
其中,引入世界模型數據以增強動作生成能力,主要基於三方面考量:
1、環境物理理解:世界模型能夠通過當前狀態和執行的動作來預測未來觀測,從而學習環境中的物理規律,這種認知對操作任務尤為重要。
2、動作評估與規避風險:世界模型能夠模擬並評估候選動作的潛在結果,有助於規避可能導致不良狀態的動作。
3、精確動作解析:世界模型需要對動作輸入進行精確解釋,這反過來支持動作模型生成更有效且符合上下文的動作。
此外,動作模型也能增強視覺理解能力,從而進一步支持世界模型的視覺生成。
由下表可以看出,即使在沒有預訓練的情況下,WorldVLA模型也展現出優於離散化OpenVLA模型的性能,這證明了其架構設計的有效性。
此外,模型性能與圖像分辨率呈正相關。具體而言,512×512像素分辨率相比256×256像素分辨率帶來了顯著提升。
這一現象主要歸因於Chameleon主干模型的預訓練策略,其圖像分詞器與大語言模型組件在512×512分辨率下進行了優化。
同時,更高的分辨率自然提供了更多的視覺細節信息,這對需要高操作精度的機器人抓取任務尤為重要。
此外,研究還表明引入世界模型能夠顯著提升動作模型的性能。
世界模型的核心功能是基於當前狀態與執行動作預測環境狀態變化,這一生成機制促使模型學習系統的底層物理規律,而掌握這種規律正是實現抓取等精細操作任務的關鍵前提。
更深入來看,世界模型賦予系統前瞻推演能力:通過預判候選動作可能產生的后果,為決策過程提供關鍵信息,從而優化動作選擇策略,提高任務成功率。
下圖的對比案例直觀展示了這種優勢。基線動作模型會直接移動到目標點位卻未能成功抓取奶酪或瓶子,而WorldVLA會持續嘗試抓取,直到確認操作成功后才移向目標位置。
在生成質量上,WorldVLA顯著優於純世界模型,尤其是在生成較長的視頻序列時表現更為突出。
此外,純世界模型在多個場景中呈現明顯缺陷:無法成功拉開抽屜(a)、移動盤子后導致碗消失(b)、未能將碗平穩放置在灶臺上(c)。而動作世界模型在這些場景中均生成了連貫且符合物理規律的后續狀態。
論文一作為岑俊,2024年8月以阿里星入職阿里巴巴達摩院。本科畢業於浙江大學,碩士和博士均畢業於香港科技大學,2023年在新加坡南洋理工大學訪問過半年,曾在微軟亞洲研究院(MSRA)、上海AI Lab、海康威視和阿里巴巴通義實驗室實習。
對於VLA與世界模型,小米汽車高級研究總監、主任科學家陳龍也發表了公開看法:
VLA與WM不需要二選一,二者可以結合起來相互促進的。
一個管「抽象思考」,一個管「物理感知」,VLA+WM的結合,纔是通往具身智能(AGI)的答案。
論文鏈接:https://t.co/ZgHyhqQnyf
Github鏈接:https://t.co/SxDZGuhbL7
參考鏈接:https://x.com/EmbodiedAIRead/status/1980216687124476256
本文來自微信公眾號「量子位」,作者:時令,36氪經授權發佈。