繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

登頂HuggingFace日榜!英偉達清華團隊γ-World:把世界模型從單機打到聯機

2026-05-30 10:30

(來源:機器之心)

機器之心發佈

單機時代快結束了。

過去兩年,視頻世界模型的進展有目共睹 ——Sora、Cosmos、Genie 把畫質、時序、交互能力不斷往前推。但所有這些進展,都建立在同一個前提上:世界里只有一個參與者。

這個前提,在真實應用場景里幾乎從不成立。

多人遊戲里,你的走位會改變隊友和對手的決策空間;工廠產線上,一臺機械臂的軌跡約束着另一臺的運動範圍;具身智能體訓練里,多個 agent 在同一個環境里同時探索、互相影響。這些場景的共同特徵是因果耦合:一個主體的行為改變了共享環境的狀態,其他所有主體都必須感知到並據此行動。

這不是單智能體框架加點數據就能解決的,是設計層面本就沒有預留接口的問題。

  • 論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players 

  • 機構:NVIDIA / 清華大學 / 多倫多大學 / Vector Institute 

  • 作者:Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren

  • 項目主頁:https://research.nvidia.com/labs/sil/projects/gamma-world/

  • GitHub:https://github.com/nv-tlabs/Gamma-World

  • Huggingface: https://huggingface.co/papers/2605.28816

現有世界模型方案都卡在同一個地方

過去一年,多智能體世界模型方向密集出現新工作。

Solaris 在 Minecraft 里收集了大規模多人同步數據,訓練出可以同步生成雙人視角的世界模型,是目前公開工作里最接近實用的方案。Enigma Labs 的 Multiverse 走開源路線,用兩個模型搭建多人賽車世界。Odyssey 的 Agora-1 更激進,讓四個玩家共享同一個實時生成的對戰世界。

這些工作都證明了多智能體世界模型可以做。但仔細看,它們卡在同一個地方 —— 做到了,但擴展不了

以 Solaris 為例,兩個結構性問題直接決定了它的天花板。

對稱性打破了。 Solaris 給每個玩家學一套固定的槽位身份向量。表面上是「給玩家分配了 ID」,實際上是在模型里把「1 號玩家」和「2 號玩家」學成了兩種不同的角色類型。模型學到的是「這兩個特定角色如何互動」,而不是「多個平等的玩家如何共享一個世界」。想加第三個玩家,必須重新訓練。

算力隨人數平方爆炸。 Solaris 讓所有玩家的所有 token 兩兩交互。這個成本隨玩家數量平方增長 ——2 人到 4 人計算量翻 4 倍,2 人到 8 人翻 16 倍。兩人跑得動,多幾個人基本告別實時。

這兩個問題,一個是建模哲學問題,一個是算法複雜度問題,靠堆算力和數據都解決不了。

Gamma-World:這場仗,從底層打起

5 月下旬,NVIDIA 聯合清華大學、多倫多大學和 Vector Institute 發佈 Gamma-World,共一第一為清華大學電子系博士劉芳甫,核心 Research 方向是世界模型和空間智能

Gamma-World 沒有在現有世界模型基礎上修補,而是重新設計了一套全新的多玩家的世界模型框架,把位置編碼和注意力機制兩個底層組件重新設計,把上面兩個問題一併解決。

對稱性問題: 把每個玩家映射到旋轉角空間里一個正單純形的頂點上。正單純形的所有頂點之間距離完全相等 ——2 個玩家是線段兩端,4 個玩家是正四面體四個頂點,任意兩點距離相同。模型看到任何兩個玩家,他們之間的幾何關係完全一致,誰也不比誰特殊。這個編碼不需要任何可學習參數,也不綁定固定玩家數量 —— 訓練時用兩人,推理時想用四人,從頂點池里多取兩個頂點就行,架構不用改,不用重新訓練

複雜度問題: 引入一組 hub token 作為共享通信樞紐。玩家不再兩兩直連,而是「所有人先把信息匯給樞紐,樞紐再廣播給所有人」,信息路徑變成兩跳:玩家→樞紐→玩家。計算成本從平方增長壓到線性增長。8 個玩家時,Gamma-World 的算力消耗只有全連接方案的八分之一,延迟從 17.6ms 降到 4.5ms。

實驗方法總覽圖 實驗方法總覽圖

看看它實際跑出來是什麼樣

先看雙人 Minecraft 交互:

雙人Minecraft協作,兩個視角並排+鍵盤控制顯示 雙人Minecraft協作,兩個視角並排+鍵盤控制顯示

兩路畫面實時同步。一個玩家的走位和動作,立刻反映在另一個玩家的視角里。這不是「兩段碰巧放在一起的視頻」—— 兩路畫面描述的是同一個世界,玩家 A 看到的和玩家 B 看到的,在空間上是自洽的。

然后是這個項目最有衝擊力的結果 —— 零樣本四人泛化:

四人Minecraft零樣本泛化,四個視角+四套鍵盤控制 四人Minecraft零樣本泛化,四個視角+四套鍵盤控制
四個Agent實時協作,從遊戲場景遷移到現實情境 四個Agent實時協作,從遊戲場景遷移到現實情境

這個模型從來沒見過四個人的訓練數據。推理時只需要從單純形頂點池里多取兩個頂點,四路同步視角直接生成,共享世界狀態完整保留。這不是「多生成幾段視頻」,是模型真的學會了「多個主體共享同一個世界」這件事本身。

最后是真實機器人場景:

機械臂雙人實時協同 機械臂雙人實時協同

同一套框架,從 Minecraft 方塊世界直接遷移到真實桌面操作,左右兩條機械臂各作為一個獨立智能體。生成的未來幀保持了雙臂的協同運動和空間佈局,沒有任何額外改動。X 的網友評論:

「實時多智能體遊戲!太瘋狂了……

我特別喜歡將遊戲玩法擴展到 UMI 數據收集場景的想法,將兩個臂視為獨立的代理(共享觀察空間)。

由於其實時效率,或許可以開始利用神經模擬而非物理交互來實現具身的數據採集。」

這件事真正打開了什麼

Physical AI 領域長期面臨一個核心瓶頸:高質量的多智能體交互數據極度稀缺。語言數據可以從互聯網挖,圖像數據可以從相機採集,但物理交互數據 —— 一臺機器人拿起杯子、另一臺做出響應,一個玩家改變環境、另一個據此決策 —— 幾乎不存在規模化的採集來源。採一小時真實雙臂協作數據,需要兩臺機器人、一個操作空間、至少一個人全程監督。真實世界的數據產出速度,最終受限於人類時間和物理空間,這個瓶頸不是錢能直接解決的。

這也是為什麼語言模型令全世界沸騰的的 scaling law 在 Physical AI 領域迟迟沒能復現 —— 不是模型不夠大,是數據根本不夠。

多智能體世界模型有可能改變這個等式。當模型能在共享環境中同時模擬多個智能體的交互,它就天然成為一臺交互數據的生成器 —— 多個 agent 在虛擬世界中對抗、協作、探索,24 小時不間斷地產出軌跡數據,然后用這些數據訓練真實的機器人和遊戲 AI。更重要的是,這個過程可以主動設計:想要更多雙臂協作場景,就在虛擬環境里跑更多雙臂任務;想要更極端的對抗場景,就讓 agent 在虛擬世界里自我博弈。真實世界採數據是被動的,世界模型生成數據是主動的,這個主動性本身就是一個質的躍升。

而且這個飛輪一旦轉起來,會自我加速:更好的世界模型生成更高質量的訓練數據,更高質量的訓練數據訓練出更好的 policy,更好的 policy 跑出更多樣的交互軌跡,又反哺世界模型的下一輪訓練。這個循環在單智能體時代已經有人在做,多智能體世界模型把這個循環的覆蓋範圍擴展到了真正有價值的場景。

賽道格局正在變

γ-World 多人實時協同世界模型 γ-World 多人實時協同世界模型

Solaris 證明了兩個玩家是可行的;Gamma-World 證明了擴展到更多玩家是可行的,而且不需要為每個新的玩家數重新訓練。聽起來只是一步,但這是這個賽道從「能做」到「可擴展」的關鍵跨越 —— 就像當年遊戲引擎從單機走向聯機,不只是多了幾個角色,而是整個遊戲世界的生產邏輯變了。

Solaris、Multiverse、Agora-1、Gamma-World,各家技術路線不同,但指向同一個判斷:單機時代的世界模型,已經到了天花板。

接下來的競爭會在幾個維度同時展開。模型層面,誰能把多智能體一致性實時響應做得更好、支持更多 agent、在更復雜的場景下不崩;數據層面,多智能體世界模型本身就是數據生成器,誰的生成質量更高、物理規律更準,誰就能產出更好的訓練數據反哺下一代模型;應用層面,從 Minecraft 到機械臂只是開始,自動駕駛、無人機編隊、手術機器人協作,每一個都是一個獨立的戰場,也都指向千億萬億級的市場規模。

但這些競爭背后有一個更根本的問題還沒有答案:生成出來的多智能體交互,物理規律和因果邏輯能不能真正經得起檢驗? 虛擬環境里學到的規則如果和真實世界對不上,灌再多數據也是噪聲。Gamma-World 在機械臂上的遷移實驗是一個積極信號,但這個問題要真正答完,還需要更系統的驗證。

這也是為什麼這個方向現在這麼值得關注 —— 它不只是「世界模型做多人版」,而是在試圖回答一個更大的問題:AI 能不能真正理解一個有多個參與者的世界,以及這種理解能不能遷移到真實物理場景中去。這件事一旦答出來,Physical AI 訓練數據的生產方式會發生根本性的改變。

從單機到聯機,世界模型的下一場戰爭,纔剛剛開始。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。