熱門資訊> 正文
2025-10-30 18:06
這兩天,Physical Intelligence(PI)聯合創始人Chelsea Finn在𝕏上,對斯坦福課題組一項最新世界模型工作kuakua連續點贊。
生成看起來不錯的視頻很容易,難的是構建一個真正對機器人有用的通用模型——它需要緊密跟隨動作,還要足夠準確以避免頻繁幻覺。
這項研究,正是她在斯坦福帶領的課題組與清華大學陳建宇團隊聯合提出的可控生成世界模型Ctrl-World。
這是一個能讓機器人在「想象空間」中完成任務預演、策略評估與自我迭代的突破性方案。
核心數據顯示,該模型使用零真機數據,大幅提升策略在某些在下游任務的指令跟隨能力,成功率從38.7%提升至83.4%,平均改進幅度達44.7%。
其相關論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已發佈於arXiv平臺。
注:Ctrl-World專為通用機器人策略的策略在環軌跡推演而設計。它生成聯合多視角預測(包括腕部視角),通過幀級條件控制實現細粒度動作控制,並通過姿態條件記憶檢索維持連貫的長時程動態。這些組件實現了:(1)在想象中進行精準的策略評估,並與真實世界軌跡推演對齊(2)通過合成軌跡實現針對性的策略改進
當前,視覺-語言-動作(VLA)模型雖在多種操作任務與場景中展現出卓越性能,但在開放世界場景中仍面臨兩大核心難題,這也是團隊研發CTRL-WORLD的核心動因:
難題一,策略評估成本高,真實測試燒錢又低效。
驗證機器人策略性能需在不同場景、任務中反覆試錯。
以「抓取物體」任務為例,研究者需準備大小、材質、形狀各異的物體,搭配不同光照、桌面紋理的環境,讓機器人重複成百上千次操作。
不僅如此,測試中還可能出現機械臂碰撞(故障率約5%-8%)、物體損壞(損耗成本單輪測試超千元)等問題,單策略評估周期常達數天。更關鍵的是,抽樣測試無法覆蓋所有潛在場景,難以全面暴露策略缺陷。
難題二,策略迭代同樣難,真實場景數據永遠不夠用。
即便在含95k軌跡、564個場景的DROID數據集上訓練的主流模型π₀.₅,面對「抓取左上角物體」「摺疊帶花紋毛巾」等陌生指令或「手套、訂書機」等未見過的物體時,成功率僅38.7%。
傳統改進方式依賴人類專家標註新數據,但標註速度遠趕不上場景更新速度——標註100條高質量摺疊毛巾軌跡需資深工程師20小時,成本超萬元,且無法覆蓋所有異形物體與指令變體。
開放世界尚存在棘手問題,另一邊,傳統世界模型目前也還面臨三大痛點——
為解決真實世界依賴,學界曾嘗試用世界模型(即虛擬模擬器)讓機器人在想象中訓練。
但研究團隊在論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,現有世界模型多數方法聚焦於被動視頻預測場景,無法與先進通用策略進行主動交互。
具體來説,存在三大關鍵侷限,阻礙其支持策略在環(policy-in-the-loop)推演:
多數模型僅模擬單一第三人稱視角,導致「部分可觀測性問題」——例如機械臂抓取物體時,模型看不到腕部與物體的接觸狀態,可能出現「物體無物理接觸卻瞬移到夾爪中」的幻覺;
傳統模型多依賴文本或初始圖像條件,無法綁定高頻、細微的動作信號,例如機械臂「Z軸移動6釐米」與「Z軸移動4釐米」的差異無法被準確反映,導致虛擬預演與真實動作脱節;
隨着預測時間延長,微小誤差會不斷累積,導致「時序漂移」——論文實驗顯示,傳統模型在10秒預演后,物體位置與真實物理規律的偏差,失去參考價值。
為此,清華大學陳建宇與斯坦福大學Chelsea Finn兩大團隊聯合提出CTRL-WORLD,旨在構建一個「能精準模擬、可長期穩定、與真實對齊」的機器人虛擬訓練空間,讓機器人通過「想象」訓練。
Ctrl-World通過三項針對性設計,解決了傳統世界模型的痛點,實現「高保真、可控制、長連貫」的虛擬預演。
論文強調,這三大創新共同將「被動視頻生成模型」轉化為「可與VLA策略閉環交互的模擬器」。
Ctrl-World基於預訓練視頻擴散模型初始化,並通過以下方式適配為一個可控且時間一致的世界模型:
多視角輸入與聯合預測
幀級動作條件控制
姿態條件記憶檢索
一般來説,以往模型靠單視圖預測,存在部分觀測問題與幻覺。
而Ctrl-World結合第三人稱與腕部視圖聯合預測,生成的未來軌跡精準且貼合真實情況。
傳統世界模型僅模擬單一第三方視角,本質是「信息不全」。
而CTRL-WORLD創新性地聯合生成第三方全局視角+腕部第一視角:
第三方視角提供環境全局信息 (如物體在桌面的整體佈局) ,腕部視角捕捉接觸細節 (如機械爪與毛巾的摩擦、與抽屜的碰撞位置) ;
模型通過空間Transformer將多視角圖像token拼接 (單幀含3個192×320圖像,編碼為24×40latent特徵) ,實現跨視角空間關係對齊。
論文實驗驗證了這一設計的價值:
在涉及機械臂與物體接觸的精細操作任務中(如抓取小型物體),腕部視角可精準捕捉夾爪與物體的接觸狀態(如捏合力度、接觸位置),顯著減少「無物理接觸卻完成抓取的幻覺」。
定量數據顯示,該設計使物體交互幻覺率降低;在多視角評估中,Ctrl-World的峰值信噪比(PSNR)達23.56,遠超傳統單視角模型WPE(20.33)和IRASim(21.36),結構相似性(SSIM)0.828也顯著高於基線(WPE0.772、IRASim0.774),證明虛擬畫面與真實場景的高度契合。
要讓虛擬預演「可控」,必須建立「動作-視覺」的強因果關係。
Ctrl-World的解決方案是「幀級動作綁定」:
將機器人輸出的動作序列 (如關節速度) 轉化為笛卡爾空間中的機械臂姿態參數;
通過幀級交叉注意力模塊,讓每一幀的視覺預測都與對應的姿態參數嚴格對齊——就像「分鏡腳本」對應每一幕劇情,確保「動作A必然導致視覺結果B」。
注:上圖展示的是Ctrl-World的可控性及其消融實驗。不同的動作序列可以在Ctrl-World中以釐米級的精度產生不同的展開結果。移除記憶會導致預測模糊(藍色),而移除幀級姿勢條件會降低控制精度(紫色)。注意力可視化(左側)在預測(t=4)秒幀時,對具有相同姿勢的(t=0)秒幀顯示出強烈的注意力,說明了記憶檢索的有效性。爲了清晰起見,每個動作塊都用自然語言表達(例如,「Z軸-6釐米」)。由於空間限制,僅可視化了中間幀的腕部視角。
論文中給出了直觀案例:
當機械臂執行不同的空間位移或姿態調整動作時(如沿特定軸的釐米級移動、夾爪開合),Ctrl-World能生成與動作嚴格對應的預演軌跡,即使是細微的動作差異(如幾釐米的位移變化),也能被準確區分和模擬。
定量ablation實驗顯示,若移除「幀級動作條件」,模型的PSNR會從23.56降至21.20,LPIPS(感知相似度,數值越低越好)從0.091升至0.109,證明該設計是精準控制的核心。
長時預演的「時序漂移」,本質是模型「忘記歷史狀態」。
Ctrl-World引入「姿態條件記憶檢索機制」,通過兩個關鍵步驟解決:
稀疏記憶採樣:從歷史軌跡中以固定步長 (如1-2秒) 採樣k幀 (論文中k=7) ,避免上下文過長導致的計算負擔;
姿態錨定檢索:將採樣幀的機械臂姿態信息嵌入視覺token,在預測新幀時,模型會自動檢索「與當前姿態相似的歷史幀」,以歷史狀態校準當前預測,避免漂移。
注:上圖展示的是Ctrl-World的一致性。由於腕部攝像頭的視野在單一軌跡中會發生顯著變化,利用多視角信息和記憶檢索對於生成一致的腕部視角預測至關重要。綠色框中突出顯示的預測是從其他攝像頭視角推斷出來的,而紅色框中的預測則是從記憶中檢索得到的。
論文實驗顯示,該機制能讓Ctrl-World穩定生成20秒以上的連貫軌跡,時序一致性指標FVD(視頻幀距離,數值越低越好)僅97.4,遠低於WPE(156.4)和IRASim(138.1)。
ablation實驗證明,若移除記憶模塊,模型的FVD會從97.4升至105.5,PSNR從23.56降至23.06,驗證了記憶機制對長時一致性的關鍵作用。
團隊在DROID機器人平臺(含Panda機械臂、1個腕部相機+2個第三方相機)上開展三輪實驗測試,從生成質量、評估準確性、策略優化三個維度全面驗證CTRL-WORLD的性能:
在10秒長軌跡生成測試中(256個隨機剪輯,15步/秒動作輸入),CTRL-WORLD在覈心指標上全面領先基線模型(WPE、IRASim):
PSNR:23.56 (WPE為20.33,IRASim為21.36) ,虛擬畫面與真實場景的像素相似度提升15%-16%;
SSIM:0.828 (WPE為0.772,IRASim為0.774) ,物體形狀、位置關係的結構一致性顯著增強;
LPIPS:0.091 (WPE為0.131,IRASim為0.117) ,從人類視覺感知看,虛擬與真實畫面幾乎難以區分;
FVD:97.4 (WPE為156.4,IRASim為138.1) ,時序連貫性提升29%-38%。
更關鍵的是,面對訓練中未見過的相機佈局(如新增頂部視角),CTRL-WORLD能零樣本適配,生成連貫多視角軌跡,證明其場景泛化能力。
論文結果顯示:
虛擬預演的「指令跟隨率」與真實世界的相關係數達0.87(擬合公式y=0.87x-0.04)。
虛擬「任務成功率」與真實世界的相關係數達0.81(y=0.81x-0.11)。
這意味着,研究者無需啟動真實機器人,僅通過Ctrl-World的虛擬預演,就能準確判斷策略的真實性能,將策略評估周期從「周級」縮短至「小時級」。
Ctrl-World的終極價值在於用虛擬數據改進真實策略。
團隊以π₀.₅為基礎策略,按以下步驟進行優化(對應論文Algorithm1):
論文給出的細分任務改進數據極具説服力:
綜合所有陌生場景,π₀.₅的任務成功率從38.7%飆升至83.4%,平均提升44.7%——更關鍵的是,整個過程未消耗任何真實物理資源,成本僅為傳統專家數據方法的1/20。
儘管成果顯著,團隊也坦言CTRL-WORLD仍有改進空間:
首先,複雜物理場景適配不足。
在「液體傾倒」「高速碰撞」等任務中,虛擬模擬與真實物理規律的偏差,主要因模型對重力、摩擦力的建模精度不足。
其次,初始觀測敏感性高。
若第一幀畫面模糊(如光照過暗),后續推演誤差會快速累積。
未來,團隊計劃從兩方面突破——
一方面將視頻生成與強化學習結合,讓機器人在虛擬世界自主探索最優策略;
另一方面擴大訓練數據集(當前基於DROID),加入「廚房油污環境」、「户外光照變化」等複雜場景數據,提升模型對極端環境的適配能力。
總的來説,此前機器人學習依賴「真實交互-數據收集-模型訓練」的循環,本質是用物理資源換性能;而CTRL-WORLD構建了「虛擬預演-評估-優化-真實部署」的新閉環,讓機器人能通過「想象」高效迭代。
該成果的價值不僅限於實驗室。
對工業場景而言,它可降低機械臂調試成本(單條生產線調試周期從1周縮至1天)。
對家庭服務機器人而言,它能快速適配「操作異形水杯」「整理不規則衣物」等個性化任務。
隨着視頻擴散模型對物理規律建模的進一步精準,未來的CTRL-WORLD有望成為機器人「通用訓練平臺」,推動人形機器人更快走向開放世界。
論文地址:https://arxiv.org/pdf/2510.10125
GitHub鏈接:https://github.com/Robert-gyj/Ctrl-World
本文來自微信公眾號「量子位」,作者:Ctrl-World團隊,36氪經授權發佈。