熱門資訊> 正文
2025-06-12 11:23
(轉自:機器之心)
本文第一作者顧澤琪是康奈爾大學計算機科學四年級博士生,導師為 Abe Davis 教授和 Noah Snavely 教授,研究方向專注於生成式 AI 與多模態大模型。本項目為作者在英偉達實習期間完成的工作。
想象一下,你是一位遊戲設計師,正在為一個奇幻 RPG 遊戲搭建場景。你需要創建一個 "精靈族樹屋村落"—— 參天古木和樹屋、發光的蘑菇路燈、半透明的紗幔帳篷... 傳統工作流程中,這可能需要數周時間:先手工建模每個 3D 資產,再逐個調整位置和材質,最后反覆測試光照效果…… 總之就是一個字,難。
這種困境正是當前 3D 內容創作領域的縮影。傳統 3D 設計軟件如 Blender、Maya 雖然功能強大,但學習曲線陡峭。近年來興起的文本生成 3D 技術讓用户可以通過文字描述生成 3D 內容,但這些方法要麼依賴有限的 3D 訓練數據,遇到新場景類型或風格就容易翻車,要麼在預測完場景中的物體信息后,要從特定的 3D 模型池中尋找並調用出與預測特徵最相近的,因此最后的場景質量非常依賴於模型池中到底有什麼,很容易導致風格不統一。
與此同時,文本生成 2D 圖像技術(如 GPT-4o、Flux)卻突飛猛進。這些模型通過海量互聯網圖像訓練,已經能生成佈局合理、風格統一的複雜場景圖。這引發了一個關鍵思考:能否讓 2D 圖像充當 "中間商",先把用户輸入文字轉化為高質量場景圖,再從中提取 3D 信息?NVIDIA 與康奈爾大學聯合團隊的最新研究 ArtiScene,正是基於這一 insight 提出的全新解決方案。
文章鏈接:https://arxiv.org/abs/2506.00742
文章網站:https://artiscene-cvpr.github.io/(代碼即將開源)
英偉達網站:https://research.nvidia.com/labs/dir/artiscene/
圖一:ArtiScene 生成的 3D 結果。從左到右的文字輸入分別是,第一行:(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行:(1) a cute living room, (2) a garage, (3) a operating room.
核心貢獻:無需訓練的智能 3D 場景工廠
ArtiScene 的核心創新在於構建了一個完全無需額外訓練的自動化流水線,將文本生成圖像的前沿能力與 3D 重建技術巧妙結合。它一共包含五步:
1. 2D 圖像作為 "設計藍圖"
系統首先用擴散模型生成等軸測視角的場景圖。這種視角常用於建築設計示意圖,因為它能同時呈現物體的長、寬、高信息,且不受場景位置影響。相比直接生成 3D,這種方法能利用更成熟的 2D 生成技術確保佈局合理性和視覺美感。
圖二:和其他任意的相機視角(左二、三)比,讓文生圖模型輸出等軸測圖(左一)更可靠,因為等軸測圖默認相機參數是固定的,且沒有透視形變。
2. 物體檢測與修復
採用兩階段檢測策略:先用 GroundedDINO 識別場景中的家俱和裝飾品,對遮擋部分用補全修復(Remove Anything 模型),再次檢測確保完整性,最后得到每個物品的分割掩碼。
3. 3D 空間定位
通過 Depth-Anything-2 模型估計深度信息,配合自定義投影公式將 2D 座標轉換為 3D 位置。團隊發現傳統相機投影公式需要調整,於是採用去除深度縮放影響后的公式。
4. 模塊化 3D 資產生成
傳統方法通常從現有數據庫檢索 3D 模型,導致美觀度受限。ArtiScene 則對場景圖中的每個物體分別生成定製化 3D 模型:在得到分割物體圖像后,讓 ChatGPT 描述其幾何特徵,再輸入單視圖 3D 生成模型,為每件家俱、裝飾品單獨建模。
5. 場景組裝
通過單目深度估計,系統將 2D 邊界框轉換為 3D 空間座標。並使用 "渲染 - 比對" 的姿勢估測機制,生成 8 個旋轉角度的物體渲染圖,用 Stable Diffusion+DINO-v2 融合模型提取特徵,選擇與原始場景圖最匹配的姿勢。后處理階段還會自動修正物體重疊,確保物理上足夠合理,比如椅子不會嵌進餐桌里,花瓶能穩穩立在櫃子上。
這種設計帶來三個顯著優勢:
✅零訓練成本:完全利用現成模型,無需針對新場景類型微調
✅風格無限:每個物體都按需生成,不受預製模型庫限制
✅可編輯性強:單獨修改某個物體不會影響整體場景
實驗結果:全面超越現有方案
團隊在三個維度進行了系統評估:
1. 佈局合理性測試
對比當時最強的 LayoutGPT,在卧室和客廳場景中:
物體重疊率降低 6-10 倍(卧室 6.48% vs 37.26%)
用户調研顯示,72.58% 的參與者更青睞 ArtiScene 的佈局
生成家俱數量更多(卧室平均 6.97 件 vs 4.30 件),且分佈更自然
2. 風格一致性測試
相比當時效果最好的文生 3D 場景方法 Holodeck,在包含 29 種場景種類和風格的測試集中:
CLIP 分數提高 10%(29.45 vs 26.73)
GPT-4 評估中,95.46% 案例認為 ArtiScene 更符合描述
用户調研顯示,82.96% 認為風格還原更準確
3. 應用靈活性展示