熱門資訊> 正文
2026-02-07 18:02
在開始之前,我想先問大家一個簡單的問題:
你們還在苦苦等待《GTA 6》的發售嗎?
我是不清楚大家的想法啦,但小雷真的非常期待它的到來。要知道《GTA 5》發佈至今已經過去十三年了,時至今日卻依然魅力不減。讓人不得不期待,在漫長的等待后,R星究竟能夠端出一款怎樣的作品。
不過,雖然現在說出來可能有點潑冷水,但在R星還在為發售日期遮遮掩掩的時候,大洋彼岸的谷歌DeepMind團隊卻悄悄搞出了一個大動作。如果不出現意外,這東西可能會徹底改變我們對遊戲這兩個字的理解。
近日,谷歌在官方博客正式宣佈,已向部分用户開放體驗Project Genie原型版本,能讓用户生成屬於自己的可玩遊戲世界。
(圖源:雷科技)
消息一出,《GTA》開發商R星的母公司Take-Two Interactive股價縮水10%,在線遊戲平臺Roblox下跌了超過12%,最慘的是遊戲引擎製造商Unity下跌了21%,反而是國內廠商網易、騰訊基本沒有受到什麼影響。
趁這機會,小雷打算和大夥好好聊聊,這個敢搶《GTA 6》風頭的AI到底是何方神聖,它現在的體驗究竟到了什麼地步,以及在不遠的未來,我們的遊戲和虛擬世界到底會變成什麼樣。
在介紹技術之前,我們得先搞清楚它有多離譜。
過去我們想做一款遊戲,流程是怎樣的?你需要策劃寫劇本,美術畫貼圖,程序員敲代碼,最后還得通過引擎渲染出來。
這個過程可謂既漫長又燒錢,即便是育碧、EA這樣的遊戲巨頭,也要做到數十年如一日地投資,最終成品卻沒有人能夠篤定效果如何。
但Project Genie的誕生,把這個邏輯完全顛覆了。
(圖源:谷歌)
它的核心能力可以概括為一句話:生成即交互。
你給它一張照片,或者一張手繪的草圖,甚至是一句簡單的文字描述,它就能把世界和角色搭出來。
(圖源:谷歌)
然后,你可以指定遊戲的操作方法,例如走路、騎行、飛行還是開車,Project Genie就會試圖理解物理規律,然后直接生成一個可以操控的世界:
(圖源:谷歌)
沒錯,就像上面這個樣子。
世界一旦生成,我們就可以直接在里面行動了。在Project Genie里,你往前走,前方路徑會實時生成,你轉視角,鏡頭也會跟着同步調整,整個過程更像是在一個持續展開的空間里進行探索。
不滿意,那就把這個世界修改一下。
和其他AIGC內容類似,Project Genie生成的世界並不是一次性產品,我們還可以在已有世界的提示詞基礎上繼續修改,比如把狗換成粉色氣球兔子。
(圖源:谷歌)
你甚至可以丟一個真實世界的圖片進去,讓Project Genie幫我們做二創並讓其動起來,完成之后,還能直接導出成視頻,方便保存或分享。
也正因為功能如此之強大,於是乎,腦洞大開的網友們很快就把它玩出了花。
在嗶哩嗶哩上,就有UP主上傳了一張主播許昊龍的經典照片。在Project Genie的處理下,下一秒,畫面里的炫狗就變成了可操控的角色,你可以按下鍵盤的方向鍵,控制他在那個車庫背景里跑動、跳躍,甚至能和世界里的物品產生真實接觸。
(圖源:bilibili)
經典耄耋梗圖?給我動起來!
(圖源:bilibili)
給它一張《原神》的圖,它也能自動生成風之翼的效果,讓角色在空中自由馳騁,甚至能模擬出滑翔的效果。
(圖源:bilibili)
在推特上,甚至有人隨手在紙上畫了幾個火柴人,旁邊畫了幾道波浪線代表水,拍張照上傳給Project Genie。系統就能把這個塗鴉變成一個關卡,火柴人真的能跳過那些波浪線,甚至如果不小心掉下去,還能模擬出墜落的效果。
而這就是Project Genie最嚇人的地方:
它不需要代碼,也不需要3D建模,它僅僅通過看圖,就理解了什麼是地面、什麼是障礙物、角色該怎麼動。
與之對比,國內遊戲大廠們其實也沒閒着,但方向多少有點小家子氣。
你看,網易的《逆水寒》天天吹噓AI NPC有多會聊天,騰訊忙着讓AI在《王者榮耀》里虐菜。然而這些所謂的黑科技,說白了就是在用AI賦能遊戲,本質還是機器人,遠遠達不到顛覆遊戲創作流程的水平。
只能説國內廠商們,還是任重而道遠啊。
誒,有的讀者可能要問了,既然這東西説得這麼神,是不是明天遊戲公司都要倒閉了?
嗯...這倒也不至於。
儘管看起來有些類似,但是Project Genie本質上和我們玩的《黑暗之魂》或者《王者榮耀》之類的遊戲完全是兩個物種。
傳統遊戲是基於遊戲引擎的,你按一下跳躍鍵,程序會根據重力參數計算你跳多高;你扔出一個鐵球,程序利用經典物理公式來計算它的下落速度;你打開手電筒,程序則會模擬光照和物體材質,來實時渲染光照的效果。
而Project Genie是基於Genie 3、Nano Banana Pro和Gemini的,其核心Genie 3本質上是一個採用自迴歸生成機制的幀生成模型,它會根據世界描述和用户操作,逐幀生成環境狀態,而不是播放預先生成好的內容。
(圖源:谷歌)
我知道,在老黃大肆推廣的今天,幀生成已經不是什麼新鮮玩意了。
它的工作原理,就是看着前幾幀畫面,然后猜測下一幀的畫面。
通過學習谷歌龐大數據庫里超過20萬小時的遊戲視頻,Genie 3記住了每一種「當屏幕上有個小人,且玩家按下右鍵時,下一幀畫面通常會發生什麼」的可能性,並會在玩家做出的操作生成對應的畫面。
問題就在這里,Genie 3根本不懂物理,沒有可靠的邏輯計算,而是通過不斷猜測來拓展世界的,這也導致了目前的體驗有兩個非常明顯的硬傷。
首先是缺乏一致性。
儘管谷歌方面聲稱,爲了防止AI算力過載或者邏輯崩壞,玩家只能生成一分鍾的片段。
但在一分鍾的限制下,我們依然能看到嚴重的記憶丟失。就用上面舉例的許昊龍,明明玩家導入的是一張正面照片,但在實際操作角色10秒后,再次切到正臉,你會發現角色的面部發生了180°改變——變成了一個純種白人大叔。
(圖源:bilibili)
我想,除了玩Roguelike遊戲的時候,應該沒有多少人願意接受這種在一個遊戲里,同一個地方每次去都不太一樣的情況吧
其次是沒什麼邏輯。
在傳統遊戲里,你撞到牆會被彈回來,對吧。
但在Project Genie的世界里,AI是有猜錯的時候。這就導致你控制的角色可能會突然穿牆而過,或者跳着跳着突然融化進了地板里,甚至有時候走着走着,身后突然長出一棵樹來。
(圖源:bilibili)
這種體驗非常詭異,就像我們在做清醒夢,你知道自己在控制着角色,但世界總是在發生一些毫無邏輯的形變。
需要明確的是,相比前代以及其他視覺語言模型/世界模型,Genie 3的一致性、穩定性已經強出不少,但齣戲的情況仍然有相當大的概率出現,這在追求可玩性的遊戲里絕對是不可接受的。
正因如此,它目前的價值,更多是給遊戲設計師提供一個快速驗證靈感的方法。
對我們普通玩家來説,當個新鮮玩具,玩個幾分鍾娛樂一下或許還行。距離真正的沉浸式娛樂,還有很長一段路要走。
説到這里,可能有人會覺得,既然畫質這麼渣,Bug這麼多,那谷歌花這麼多錢搞這個Project Genie,是不是點錯科技樹了?
在我看來,恰恰相反。
Project Genie的出現,其意義遠不止做個遊戲這麼簡單,它代表了人工智能從「理解靜態世界」邁向了「模擬真實世界」的關鍵一步。
我們現在熟悉的Sora、Runway這些視頻生成模型,雖然能做出好萊塢級別的畫面,但它們是被動展示的。觀眾只能看,不能互動。
(圖源:OpenAI)
而Genie 3代表的世界模型,則是要讓AI理解:因為我做了一個動作,所以世界發生了改變,讓AI從被動展示到主動交互,從靜態敍事到動態推演,這正是通往通用人工智能(AGI)的必經之路。
試想一下,如果未來的Genie能進化到4K畫質、60幀,並且物理邏輯完全準確,那意味着什麼?
舉個簡單的例子,這意味着我們不需要在現實中去訓練機器人了。我們可以讓AI機器人在Project Genie生成的虛擬世界里,摔倒一萬次,學會走路,學會拿杯子,然后再把這個算法加載到實體機器人身上。
當然了,目前盯着這個賽道的,可不止谷歌一家。
OpenAI明確説過Sora本質上也是世界模型,英偉達剛推出的Cosmos模型號稱專注於讓AI理解物理定律,國內的眾多大廠也在暗中佈局。大家都在賭,誰能先造出那個成熟的世界雛形。
對這種新生代物種來説,好戲纔剛剛開場。