熱門資訊> 正文

一張圖生成遊戲？谷歌Genie體驗：萬物皆可玩，但離「殺死遊戲公司」還遠

2026-02-07 18:02

在開始之前，我想先問大家一個簡單的問題：

你們還在苦苦等待《GTA 6》的發售嗎？

我是不清楚大家的想法啦，但小雷真的非常期待它的到來。要知道《GTA 5》發佈至今已經過去十三年了，時至今日卻依然魅力不減。讓人不得不期待，在漫長的等待后，R星究竟能夠端出一款怎樣的作品。

不過，雖然現在說出來可能有點潑冷水，但在R星還在為發售日期遮遮掩掩的時候，大洋彼岸的谷歌DeepMind團隊卻悄悄搞出了一個大動作。如果不出現意外，這東西可能會徹底改變我們對遊戲這兩個字的理解。

近日，谷歌在官方博客正式宣佈，已向部分用户開放體驗Project Genie原型版本，能讓用户生成屬於自己的可玩遊戲世界。

（圖源：雷科技）

消息一出，《GTA》開發商R星的母公司Take-Two Interactive股價縮水10%，在線遊戲平臺Roblox下跌了超過12%，最慘的是遊戲引擎製造商Unity下跌了21%，反而是國內廠商網易、騰訊基本沒有受到什麼影響。

趁這機會，小雷打算和大夥好好聊聊，這個敢搶《GTA 6》風頭的AI到底是何方神聖，它現在的體驗究竟到了什麼地步，以及在不遠的未來，我們的遊戲和虛擬世界到底會變成什麼樣。

只要一張圖，萬物皆可玩

在介紹技術之前，我們得先搞清楚它有多離譜。

過去我們想做一款遊戲，流程是怎樣的？你需要策劃寫劇本，美術畫貼圖，程序員敲代碼，最后還得通過引擎渲染出來。

這個過程可謂既漫長又燒錢，即便是育碧、EA這樣的遊戲巨頭，也要做到數十年如一日地投資，最終成品卻沒有人能夠篤定效果如何。

但Project Genie的誕生，把這個邏輯完全顛覆了。

（圖源：谷歌）

它的核心能力可以概括為一句話：生成即交互。

你給它一張照片，或者一張手繪的草圖，甚至是一句簡單的文字描述，它就能把世界和角色搭出來。

（圖源：谷歌）

然后，你可以指定遊戲的操作方法，例如走路、騎行、飛行還是開車，Project Genie就會試圖理解物理規律，然后直接生成一個可以操控的世界：

（圖源：谷歌）

沒錯，就像上面這個樣子。

世界一旦生成，我們就可以直接在里面行動了。在Project Genie里，你往前走，前方路徑會實時生成，你轉視角，鏡頭也會跟着同步調整，整個過程更像是在一個持續展開的空間里進行探索。

不滿意，那就把這個世界修改一下。

和其他AIGC內容類似，Project Genie生成的世界並不是一次性產品，我們還可以在已有世界的提示詞基礎上繼續修改，比如把狗換成粉色氣球兔子。

（圖源：谷歌）

你甚至可以丟一個真實世界的圖片進去，讓Project Genie幫我們做二創並讓其動起來，完成之后，還能直接導出成視頻，方便保存或分享。

也正因為功能如此之強大，於是乎，腦洞大開的網友們很快就把它玩出了花。

在嗶哩嗶哩上，就有UP主上傳了一張主播許昊龍的經典照片。在Project Genie的處理下，下一秒，畫面里的炫狗就變成了可操控的角色，你可以按下鍵盤的方向鍵，控制他在那個車庫背景里跑動、跳躍，甚至能和世界里的物品產生真實接觸。

（圖源：bilibili）

經典耄耋梗圖？給我動起來！

（圖源：bilibili）

給它一張《原神》的圖，它也能自動生成風之翼的效果，讓角色在空中自由馳騁，甚至能模擬出滑翔的效果。

（圖源：bilibili）

在推特上，甚至有人隨手在紙上畫了幾個火柴人，旁邊畫了幾道波浪線代表水，拍張照上傳給Project Genie。系統就能把這個塗鴉變成一個關卡，火柴人真的能跳過那些波浪線，甚至如果不小心掉下去，還能模擬出墜落的效果。

而這就是Project Genie最嚇人的地方：

它不需要代碼，也不需要3D建模，它僅僅通過看圖，就理解了什麼是地面、什麼是障礙物、角色該怎麼動。

與之對比，國內遊戲大廠們其實也沒閒着，但方向多少有點小家子氣。

你看，網易的《逆水寒》天天吹噓AI NPC有多會聊天，騰訊忙着讓AI在《王者榮耀》里虐菜。然而這些所謂的黑科技，說白了就是在用AI賦能遊戲，本質還是機器人，遠遠達不到顛覆遊戲創作流程的水平。

只能説國內廠商們，還是任重而道遠啊。

看起來很美，但是不成熟

誒，有的讀者可能要問了，既然這東西説得這麼神，是不是明天遊戲公司都要倒閉了？

嗯...這倒也不至於。

儘管看起來有些類似，但是Project Genie本質上和我們玩的《黑暗之魂》或者《王者榮耀》之類的遊戲完全是兩個物種。

傳統遊戲是基於遊戲引擎的，你按一下跳躍鍵，程序會根據重力參數計算你跳多高；你扔出一個鐵球，程序利用經典物理公式來計算它的下落速度；你打開手電筒，程序則會模擬光照和物體材質，來實時渲染光照的效果。

而Project Genie是基於Genie 3、Nano Banana Pro和Gemini的，其核心Genie 3本質上是一個採用自迴歸生成機制的幀生成模型，它會根據世界描述和用户操作，逐幀生成環境狀態，而不是播放預先生成好的內容。

（圖源：谷歌）

我知道，在老黃大肆推廣的今天，幀生成已經不是什麼新鮮玩意了。

它的工作原理，就是看着前幾幀畫面，然后猜測下一幀的畫面。

通過學習谷歌龐大數據庫里超過20萬小時的遊戲視頻，Genie 3記住了每一種「當屏幕上有個小人，且玩家按下右鍵時，下一幀畫面通常會發生什麼」的可能性，並會在玩家做出的操作生成對應的畫面。

問題就在這里，Genie 3根本不懂物理，沒有可靠的邏輯計算，而是通過不斷猜測來拓展世界的，這也導致了目前的體驗有兩個非常明顯的硬傷。

首先是缺乏一致性。

儘管谷歌方面聲稱，爲了防止AI算力過載或者邏輯崩壞，玩家只能生成一分鍾的片段。

但在一分鍾的限制下，我們依然能看到嚴重的記憶丟失。就用上面舉例的許昊龍，明明玩家導入的是一張正面照片，但在實際操作角色10秒后，再次切到正臉，你會發現角色的面部發生了180°改變——變成了一個純種白人大叔。

（圖源：bilibili）

我想，除了玩Roguelike遊戲的時候，應該沒有多少人願意接受這種在一個遊戲里，同一個地方每次去都不太一樣的情況吧

其次是沒什麼邏輯。

在傳統遊戲里，你撞到牆會被彈回來，對吧。

但在Project Genie的世界里，AI是有猜錯的時候。這就導致你控制的角色可能會突然穿牆而過，或者跳着跳着突然融化進了地板里，甚至有時候走着走着，身后突然長出一棵樹來。

（圖源：bilibili）

這種體驗非常詭異，就像我們在做清醒夢，你知道自己在控制着角色，但世界總是在發生一些毫無邏輯的形變。

需要明確的是，相比前代以及其他視覺語言模型/世界模型，Genie 3的一致性、穩定性已經強出不少，但齣戲的情況仍然有相當大的概率出現，這在追求可玩性的遊戲里絕對是不可接受的。

正因如此，它目前的價值，更多是給遊戲設計師提供一個快速驗證靈感的方法。

對我們普通玩家來説，當個新鮮玩具，玩個幾分鍾娛樂一下或許還行。距離真正的沉浸式娛樂，還有很長一段路要走。

世界模型，纔是AI的下一個戰場

説到這里，可能有人會覺得，既然畫質這麼渣，Bug這麼多，那谷歌花這麼多錢搞這個Project Genie，是不是點錯科技樹了？

在我看來，恰恰相反。

Project Genie的出現，其意義遠不止做個遊戲這麼簡單，它代表了人工智能從「理解靜態世界」邁向了「模擬真實世界」的關鍵一步。

我們現在熟悉的Sora、Runway這些視頻生成模型，雖然能做出好萊塢級別的畫面，但它們是被動展示的。觀眾只能看，不能互動。

（圖源：OpenAI）

而Genie 3代表的世界模型，則是要讓AI理解：因為我做了一個動作，所以世界發生了改變，讓AI從被動展示到主動交互，從靜態敍事到動態推演，這正是通往通用人工智能（AGI）的必經之路。

試想一下，如果未來的Genie能進化到4K畫質、60幀，並且物理邏輯完全準確，那意味着什麼？

舉個簡單的例子，這意味着我們不需要在現實中去訓練機器人了。我們可以讓AI機器人在Project Genie生成的虛擬世界里，摔倒一萬次，學會走路，學會拿杯子，然后再把這個算法加載到實體機器人身上。

當然了，目前盯着這個賽道的，可不止谷歌一家。

OpenAI明確説過Sora本質上也是世界模型，英偉達剛推出的Cosmos模型號稱專注於讓AI理解物理定律，國內的眾多大廠也在暗中佈局。大家都在賭，誰能先造出那個成熟的世界雛形。

對這種新生代物種來説，好戲纔剛剛開場。

一張圖生成遊戲？谷歌Genie體驗：萬物皆可玩，但離「殺死遊戲公司」還遠

只要一張圖，萬物皆可玩

看起來很美，但是不成熟

世界模型，纔是AI的下一個戰場

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？