繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達3D模型打造「AI建築師特工隊」,8位華人合著,包括千問實習生

2026-02-03 19:42

智東西2月3日報道,近期,英偉達宣佈其全新3D通用模型論文將發表於2026國際3D視覺會議,論文的預印本已於去年7月發表。這篇論文構建出了一種建構3D世界的新範式,驗證了「AI生成的3D合成數據」可規模化替代人工標註數據,能夠大幅降低視覺模型預訓練的成本。 

論文的主要成果為3D-GENERALIST模型,該模型使用統一化框架,將3D環境生成的四大核心要素即佈局、材質、光照、資產等統一到序貫決策框架中。研究團隊還提出了基於CLIP評分的自改進微調策略,可以讓模型在下一輪生成中能自主修正前序錯誤。 

這篇論文的作者有8位華人,第一二作者都是中國留學生,清華「姚班」出身的斯坦福大學助理教授吳佳俊也名列其中。 

CES 2025上,英偉達正式推出世界基礎模型平臺Cosmos。在CES 2026的演講中,黃仁勛依舊將「Physical AI」作爲了整場發佈的核心靈魂,正式將Cosmos定位為Physical AI的「底層代碼」與「世界模擬器」。此外,黃仁勛還發布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語言進行鏈式因果推理。 

3D-GENERALIST這一技術會給英偉達的Cosmos補全哪塊拼圖?又是如何實現技術突破的?我們試圖從論文中尋找答案。 

01 現有痛點:只是在生成3D圖像,杯子水杯不能獨立交互

當前可交互3D環境的創建仍面臨諸多痛點。 

例如,現有技術往往聚焦於3D生成的單一環節,僅優化佈局或合成紋理,難以實現全要素的協同優化。 

且現有技術生成的場景缺乏可分離、可操作的物體和表面,即便藉助大語言模型或擴散模型的方法,現有成果也難以通過擴展計算資源提升生成質量。生成的數據也不適合需要精準標註的合成數據應用或機器人交互仿真場景,與下游任務對3D環境的質量要求存在差距。 

簡單來説,現有技術只是在生成一個整體的3D圖像,虛擬世界中的杯子、書本沒辦法獨立交互。 

而3D-GENERALIST就是來解決這些痛點的。 

02 研究方法:引入自改進機制,讓擴散模型畫圖、VLM指揮、API執行

斯坦福和英偉達研究團隊的核心思路就是將一個「設計師」擴展為一個「建築師團隊」,把搭房子的工作細化,每個步驟交給專門的人去做。 

具體來講,研究團隊首先通過全景擴散模型生成360°引導圖像,這一步就相當於先畫了一張户型圖,之后的建設都要按照這一圖像來。 

然后,研究團隊提出了「場景性策略」,一共分為三步: 

首先利用HorizonNet提取房間基礎結構,搭好房梁結構,后通過Grounded-SAM技術,在識別好的牆體上,分割出門和窗户的具體區域。最后再由GPT-4o等VLM(視覺語言模型)標註門窗類型與材質,通過程序化生成構建帶基礎構件的3D房間。 

搭好毛坯房后,研究團隊以VLM作為決策「大腦」,向其輸入含座標標記、資產名稱標記的多視角場景渲染圖和文本提示。 

隨后VLM會直接輸出代碼形式的具體動作指令,比如添加資產、調整光照、更換材質等,這些代碼指令會對接3D環境的工具API,API自動執行指令,實時更新整個3D房間。 

爲了讓虛擬場景中的每一個物體都能實現獨立交互,研究團隊還針對性設計了一套資產級優化策略。 

具體來看,團隊先借助GPT-4o識別出場景中可承載小物件的容器類資產,例如桌子、書架等載體,再通過基於網格的表面檢測技術,精準定位這些載體上適合放置物品的有效區域。 

隨后,團隊引入擅長像素級精細推理的視覺語言模型Molmo-7B,進一步確定小物體的具體放置像素點,並通過3D射線轉換,將像素位置換算為高精度的3D空間座標。 

結合碰撞檢測技術,3D-GENERALIST最終實現如把書擺到桌上、把筆放在書上這類貼合現實邏輯的交互效果。 

此外,3D-GENERALIST背后還有3大關鍵技術做支撐: 

首先研究團隊引入了自改進微調機制,模型在每輪微調中會生成多個候選動作序列,通過CLIP評分篩選出與文本提示最對齊的最優動作,再用該最優動作對VLM進行監督微調,以此提升模型自我修正能力。 

其次,研究團隊還規範了場景領域特定語言,定義了類別、放置位置、材質、光照等核心描述符,規範VLM輸出的動作指令格式,確保其與工具API兼容。 

研究團隊使用的上下文庫收錄能顯著提升CLIP對齊分數的動作代碼片段,生成時隨機採樣作為示例,提升動作序列的多樣性和有效性。 

03 成績驗證:物理合理性99%,合成數據訓練效果接近真實數據

在模擬就緒3D環境生成任務中,3D-GENERALIST的3D環境生成質量層級全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。 

物理合理性方面,3D-GENERALIST的無碰撞分數達99.0,邊界內分數達98.0。語義一致性方面,其位置連貫性和旋轉連貫性的分數分別為78.279.1,綜合物理語義對齊分數達67.9,遠高於基線最高值58.8。 

經3輪自改進微調后,3D-GENERALIST的CLIP分數達0.275,顯著高於無微調版本和無上下文庫版本,且能迭代修正場景缺陷。 

資產級策略生成的場景平均CLIP分數達0.282,高於基線方法的0.269,可自然實現小物體的語義對齊和物理合理放置,避免物體重疊。 

自改進微調技術的引入還降低了VLM的視覺幻覺率,在Object HalBench和AMBER基準測試中,微調后模型的幻覺相關指標均優於原始GPT-4o。 

基於3D-GENERALIST生成的合成數據預訓練視覺模型ImageNet-1K Top-1,使用86萬條標籤訓練時,準確率達0.731,超過基於人工構建的HyperSim數據集。 

當標籤量擴展至1217萬條時,ImageNet-1K Top-1準確率提升至0.776,接近基於50億真實數據訓練的模型效果,驗證了其在合成數據規模化生成上的優勢。 

04 研究團隊:8個華人創企CEO、清華姚班天才,還有Qwen實習生

除了研究本身,論文的作者欄也十分引人矚目。 

該篇論文的第一作者Fan-Yun Sun是斯坦福大學AI實驗室(SAIL)的計算機科學博士生,隸屬於Autonomous Agents Lab和斯坦福視覺與學習實驗室(SVL)。 

在讀博期間,他也深度參與了英偉達研究院的工作,曾效力於學習與感知研究組、Metropolis深度學習(Omniverse)以及自動駕駛汽車研究組。 

他的研究興趣主要在於生成具身環境與數據,用於訓練機器人和強化學習策略,致力於推動具身、多模態基礎模型及其推理能力的發展。 

此外,他還創辦了AI遊戲公司Moonlake,是一家專注於交互式世界構建的前沿人工智能實驗室,融合了多模態推理和世界建模。 

該創企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風險投資部門)籌集了2800萬美元(約合人民幣1.95億元)的種子資金。 

第二作者Shengguang Wu目前是斯坦福大學計算機科學系的博士生,在北京大學獲得碩士學位。 

他此前曾在Qwen團隊擔任研究實習生,並且參與了Qwen 1的研究工作。 

吳佳俊是斯坦福大學計算機科學和心理學的助理教授。2014年他從清華大學交叉信息研究院「姚班」本科畢業,師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級名次第一,還擔任了世界頂級的計算機視覺會議CVPR審稿人。 

吳佳俊博士畢業於麻省理工學院,導師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。 

目前,他的團隊致力於物理場景理解研究——即構建能夠觀察、推理並與物理世界互動的智能機器,以及以下方面: 

1、基於視覺、聽覺與觸覺信號的多模態感知(如物體文件夾、真實影響力項目) 

2、四維物理世界的視覺生成(如三維生成對抗網絡、π生成對抗網絡、點體素擴散模型、SDEdit圖像編輯、奇幻世界) 

3、通過物理概念基底的視覺推理(常採用神經符號化方法,如神經符號視覺問答、形狀程序、動態視覺推理數據集、邏輯視覺推理框架) 

4、運用習得物理場景表徵的機器人學與具身人工智能(如機器人廚師、行為模擬平臺)。 

Shangru Li目前是英偉達公司的高級系統軟件工程師,之前曾在騰訊有過工作經歷。 

他2019年本科畢業於廣東外語外貿大學的計算機軟件工程專業,在大三的時候,其曾在騰訊實習。2021年,Shangru Li於美國賓夕法尼亞大學的計算機圖形學和遊戲技術專業碩士畢業,此后便一直在英偉達工作。 

此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。 

05 結語:模型與機器人訓練成本或將進一步降低

3D-GENERALIST將傳統分離的建模、佈局、材質、光照等環節整合為統一的決策序列,並通過自改進機制賦予AI自我改錯的能力。 

這不僅顯著提升了複雜3D場景的構建效率與物理合理性,更關鍵的是,其驗證了高質量合成數據規模化替代人工標註的可行性,將有望降低下游視覺與機器人模型訓練的成本門檻。 

本文來自微信公眾號 「智東西」(ID:zhidxcom),作者:王 涵 王 涵,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。