繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華為世界模型來了,單卡30分鍾生成272㎡場景

2025-10-28 15:25

AI大house真來了。

華為聯合上海交通大學、華中科技大學推出了世界模型WordGrow,可以生成1800㎡超大室內場景(19x39塊),單卡30分鍾就跑了272㎡。

里面的虛擬人還能順暢導航,不帶迷路的。(小聲説:大平層確實需要導航)

並且場景具備連貫的幾何拓撲和照片級真實感外觀,智能體的導航則是在複雜空間佈局中自主規劃路徑。

這可以説是走到哪建到哪了,那場景是怎麼搭的?

具備連貫的幾何拓撲和照片級真實感外觀

以前想造個像樣的3D大場景,坑不少。

比如有些技術先靠2D模型畫張圖,再硬掰成3D,結果換完視角一看,沙發腿歪了、牆壁紋理斷了……

還有一些方法最多隻能造單個房間,擴展成套房就卡殼;

更離譜的是沒有佈局邏輯——出現冰箱塞進卧室,牀擺在廚房的情況。

現在,WorldGrow來搞裝修了(bushi),用三個核心技術填坑。

第一步是先做數據精準預處理,從3D-FRONT這類大規模數據集里提取優質樣本,用Blender執行場景切片,通過布爾交集對場景進行區塊切分,再靠occupancy檢測確保區塊內容密度(可見內容≥95%)。

同時,構建了粗、細兩個數據集,粗塊來確定宏觀佈局,細塊保留紋理細節。

第二步靠3D塊補全機制實現了無縫拼接,在生成新區塊時,先讓結構生成器確定3D結構框架,再讓latent生成器重建結構化潛變量(SLAT)特徵,保證外觀風格統一。

並且,在輸入模型時,會把帶噪潛變量、補全區域二進制掩碼、已掩碼的已知區域特徵打包融合,讓模型依據現有區塊的上下文信息精準生成,消除邊緣斷裂、紋理錯位等拼接縫。

第三步是粗到精生成策略,把場景擴展變成了補全缺失塊的任務。

先通過粗結構模型敲定整體規劃,比如窗户朝向、走廊連接等佈局;隨后對粗結構進行三線性插值上採樣,將分辨率匹配至細塊級別,再調用細結構生成器補全家俱、紋理等細節。

對比可以看出,WorldGrow能夠生成高分辨率、連續的室內場景,且場景具有真實且連貫的紋理。

實驗數據顯示,在3D-FRONT數據集上,它的幾何重建指標MMD、COV均達SOTA,FID(用於評估生成質量的核心指標,越低越優)低至7.52,大幅優於SynCity、BlockFusion等主流方法;

即便擴展到7×7塊的超大場景,邊緣質量仍然穩定。

在效率上,單張A100顯卡,30 分鍾即可生成10×10區塊(約272㎡)的室內場景,速度是同類技術的6倍。

團隊介紹

本文一作是來自上海交通大學的Sikuang Li和Chen Yang,研究完成於他們在華為實習期間。

Chen Yang目前仍為華為研究實習生,研究聚焦於計算機視覺和計算機圖形學,導師之一就是這項研究的通訊作者、AI大牛田奇。

田奇,華為終端BG首席科學家,國際歐亞科學院院士,ACM/IEEE Fellow。

論文地址:https://arxiv.org/abs/2510.21682

本文來自微信公眾號「量子位」,作者:聞樂,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。