熱門資訊> 正文
2025-08-06 09:49
(來源:機器之心)
昨晚十點,谷歌 DeepMind 重磅宣佈其 Genie 世界模型系列正式來到了第 3 代。
「Genie 3 是我們突破性的世界模型,可以通過單個文本提示詞創建交互式、可玩的環境。從照片般逼真的風景到奇幻的境界,可能性無窮無盡。」
據介紹,在 Genie 3 生成的動態世界中,玩家可以每秒 24 幀的速度實時導航,在 720p 分辨率下保持幾分鍾的一致性。
相比於前一代 Genie 2 世界模型、使用擴散模型的遊戲生成引擎 GameNGen 以及視頻生成模型 Veo,最新的 Genie 3 在多個特性上都具有明顯優勢。
比如,相比 Genie 2,最新一代 Genie 實現了分辨率的顯著提升,達到了實際可用的程度,同時還支持使用提示詞生成世界事件,並能維持數分鍾的一致性(DeepMind 將其稱為「交互視界」)。更重要的是,Genie 3 還能做到實時響應。
而相比於專用於遊戲生成的 GameNGen,Genie 3 更加通用,同時在分辨率等其它指標上都遠遠勝之。
最后與 Veo 3 對比,雖然 Genie 3 在分辨率這一點上還有不足,但在其它方面卻優勢明顯。
Genie 3 一宣佈就激起誇聲一片。
Genie 3 團隊的 Matt McGill 分享的「低頭看鞋子……看模型是否理解水坑是什麼」的視頻更是引發了一片熱議——其真實感超乎想象。
一時間,風頭甚至蓋過了近段時間來備受期待的 OpenAI 開源模型。
下面,我們來看看 Genie 3 生成的一些具體能力和案例。
Genie 3 的能力
作為最新前沿的世界模型,Genie 3 具備構建一個完整世界的全部能力,並且能夠在較長時間範圍內保證生成的世界連貫且可交互,其功能包括:
模擬世界的物理屬性:展現自然現象如水與閃電,以及複雜的環境交互。
模擬自然世界:生成充滿活力的生態系統,從動物行為到複雜的植物生命。
建模動畫和小説:激發想象力,創造奇幻場景和富有表現力的動畫角色。
建模不同地點和歷史背景:超越地理和時間的界限,探索各地和歷史場景。
Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.
提示詞:在佛羅里達州的人行道上行走,一邊是雙向車道,另一邊是海洋,正值即將來臨的颶風,強風和波浪拍打着路面。agent 的左側有一道欄杆,將其與海洋隔開。道路沿着海岸線延伸,agent 波浪接連不斷地拍打着欄杆,湧上路面。棕樹在風中彎曲。大雨傾盆,agent 前方可見一座短橋。agent 穿着雨衣。真實世界,第一人稱。
Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.
提示詞真實世界的追蹤鏡頭,在深邃昏暗的海洋中穿梭,穿過深海的峽谷,密集的大羣水母在遊動,生物發光照明。
Prompt: Being a lizard, origami style
提示詞:你是一隻蜥蜴,摺紙風格
Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.
提示詞威尼斯的汽船。威尼斯的運河以精心細緻的細節重新創造。水面有逼真的反射和波紋。建築物顯示出剝落的灰泥和數百年的風化。場景中還有其他貢多拉船、水上出租車和駁船。
實時響應和長時間一致性
這一次 Genie 3 的進化最大的亮點在於實時響應的用户交互,以及能夠長達數分鍾的場景(三維)一致性。
爲了實現 Genie 3 在可控性和實時交互性方面的高水平表現,谷歌在技術上取得了一系列的重大突破。
在每一幀的自迴歸生成過程中,模型需要持續考慮隨着時間增長的軌跡信息。例如,當用户在一分鍾后再次回到某個地點時,模型必須能夠回溯並引用一分鍾前生成的相關信息。
而要實現真正的實時交互,這種計算必須每秒多次完成,以便及時響應不斷到來的用户輸入。
爲了讓 AI 生成的世界更具有沉浸感,環境在長時間尺度上必須保持物理一致性。然而,通過自迴歸方式生成環境比一次性生成整段視頻在技術上要困難得多,因為誤差往往會隨時間逐步累積。
儘管面臨這一挑戰,Genie 3 所生成的環境在數分鍾內仍能保持高度一致性,其視覺記憶能力最遠可回溯至一分鍾前的畫面狀態。
雖作為世界模型,Genie 3 本質上仍是一個二維的圖像 / 視頻生成模型,與直接的三維場景生成具有顯著的區別。
簡單來説,Genie 3 的一致性是一種「涌現能力(emergent capability)」,能夠生成更加豐富,動態,變化的世界,因為世界是基於世界描述和用户動作逐幀生成的。
而其他基於三維模型的方法,如 NeRF 和 Gaussian Splatting,同樣可以生成具有一致性的可導航三維環境,但它們依賴於三維表示作為輸入,顯著限制了場景的豐富性。
可用提示詞生成世界事件
除了導航輸入外,Genie 3 還支持一種更具表現力的基於文本的交互形式,DeepMind 稱之為可提示的世界事件(promptable world events)。
可提示的世界事件能夠改變已經生成的世界,例如改變天氣狀況或引入新的物體和角色,從而增強導航控制的體驗。
這種能力也能增加反事實(counterfactual)的廣度,即能讓玩家更自由暢想「如果這樣會怎樣」的場景。這些場景可以被 agent 根據學習過的經驗來處理意外情況。
侷限性
雖然 Genie 3 堪稱前所未有的世界模型,但侷限性依然存在,具體包括:
動作空間有限。儘管可提示的世界事件允許進行廣泛的環境干預,但這些干預不一定由 agent 自身執行。agent 可以直接執行的動作範圍目前受到限制。
其他 agent 的交互與模擬。在共享環境中準確建模多個獨立 agent 之間的複雜交互仍然很難。
真實世界位置的準確表示。Genie 3 目前無法以完美的地理精度模擬真實世界位置。
文本渲染。通常只有在輸入的世界描述中提供時,才能生成清晰易讀的文本。
交互時間有限。目前 Genie 3 支持幾分鍾的連續交互,而非數小時。
未來值得期待
谷歌 DeepMind 也在博客中透露了他們對於 Genie 3 以及在世界模型這個研究方向上的未來計劃。
他們表示:「我們相信 Genie 3 是世界模型的重要時刻,它將開始對 AI 研究和生成式媒體等多個領域產生影響。為此,我們正在探索如何在未來讓更多測試者使用 Genie 3。」
他們預計 Genie 3 將為教育和培訓創造新的機會,幫助學生學習和專家積累經驗。比如,Genie 3 可以讓你探索古希臘的街道:
它不僅能提供廣闊的空間來訓練機器人和自主系統等智能體,還能使評估智能體性能、探索其弱點成為可能。
比如在下面的視頻中,爲了探索智能體訓練的潛力,DeepMind 將 SIMA 智能體置於 Genie 3 世界中,並設定了目標。智能體會採取行動,Genie 3 能在不知道目標的情況下模擬該世界中的響應。這對於構建更強大的具身智能體至關重要。
從 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副總裁、深度學習領導者 Oriol Vinyals 説的「神經視頻遊戲」,已經實現了令人難以置信的進化。
或許未來,谷歌真的能造出《星際迷航》中的全息甲板!
對於 Genie 3 世界模型,你有什麼看法?
參考鏈接
https://x.com/GoogleDeepMind/status/1952732150928724043
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/