熱門資訊> 正文
2025-10-31 16:26
人類能自然地感知3D世界的幾何結構與語義內容 ,但對AI而言,這「兩者兼得」一直是巨大挑戰。
傳統方法將3D重建(底層幾何)與空間理解(高層語義)割裂處理 ,導致錯誤累積且無法泛化 。而新方法試圖將3D模型與特定的視覺語言模型(VLM)「鎖死」 ,這不僅限制了模型的感知能力(例如,無法區分同一類別的兩個不同實例 ),更阻礙了其適應更強下游任務的擴展性 。
現在,NTU聯合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一個創新的端到端大型統一Transformer,首次將空間重建與實例級上下文理解融為一體。
為解決上述問題,本研究的主要貢獻在於:
提出IGGT,一個大型統一Transformer,將空間重建和實例級上下文理解的知識統一在同一個模型中進行端到端訓練 。
構建了一個全新的大規模數據集 InsScene-15K,包含15K個場景 、2億張圖像 ,以及通過新穎數據管線標註的高質量、3D一致的實例級掩碼 。
首創「實例接地的場景理解」 (Instance-Grounded Scene Understanding) 範式 。iGGT不與任何特定VLM綁定,而是生成實例掩碼作為「橋樑」 ,使其能以「即插即用」的方式與任意VLMs(如CLIP, OpenSeg )和LMMs(如Qwen-VL 2.5 )無縫集成 。
多應用支持: 該統一表示極大地擴展了下游能力,是首個能同時支持空間跟蹤、開放詞匯分割和場景問答(QA)的統一模型 。
InsScene-15K 數據集是通過一個新穎的數據管理流程構建的 ,該流程由 SAM2 驅動 ,並整合了三種不同來源的數據,每種來源的處理方式不同。
圖2
合成數據 (Synthesis Data - 如 Aria, Infinigen):
這是最直接的。在模擬環境中,RGB圖像、深度圖、相機位姿和物體級的分割掩碼被同時生成 。 由於這些模擬生成的掩碼是「完美準確的」 ,因此無需任何后處理,直接使用。
真實世界視頻採集 (Video Captured - 如 RE10K):
這個流程如圖2(a)所示,是一個定製化的SAM2視頻密集預測管線 。 首先,在視頻的第0幀使用SAM生成密集的初始掩碼提議 (Initial Mask Proposals) 。 然后,使用SAM2視頻對象分割器將這些掩碼在時間上向前傳播 (Propagate Masks Forward) 。 爲了處理新出現的對象或避免漂移,管線會迭代式地添加新關鍵幀:如果未被覆蓋的區域超過閾值,就在新幀上重新運行SAM來發現新物體 。 最后,執行一次雙向傳播 (Bi-directional Propagation) 來確保整個視頻序列的高度時間一致性 。
真實世界RGBD採集 (RGBD Captured - 如 ScanNet++):
這個流程如圖2(b)所示,是一個掩碼優化流程 (Mask Refinement Pipeline) 。 ScanNet++ 自帶的3D標註是粗糙的 。流程首先將這些3D標註投影到2D圖像,以獲得具有一致ID的初始GT掩碼 。 同時,使用SAM2為同一張RGB圖像生成形狀精確但沒有ID的細粒度掩碼提議 。 關鍵步驟是匹配與合併:將SAM2生成的精細掩碼與投影的粗糙GT掩碼進行對齊,為精細掩碼分配正確的、多視圖一致的ID 。 通過這種方式,管線極大地提升了2D掩碼的質量,使其既保持了3D的ID一致性,又具有了SAM2級別的形狀準確性 。
IGGT架構概覽:
輸入圖像被編碼為統一的Token表示,隨后由幾何頭(Geometry Head)和實例頭(Instance Head)分別處理,以同時生成高質量的幾何重建和實例接地的聚類結果。
IGGT 的架構由三部分關鍵組件構成:
統一 Transformer (Large Unified Transformer)
遵循 VGGT,模型首先使用預訓練的 DINOv2 提取圖像塊級 Token。隨后,通過 24 個注意力模塊對多視圖圖像的 Token 進行 intra-view self-attention 和 global-view cross-attention,將其編碼為強大的統一 Token 表示 Ti。
雙解碼頭與跨模態融合 (Downstream Heads and Cross-Modal Fusion)
統一 Token 被送入兩個並行的解碼器:
3D 一致性對比監督 (3D-Consistent Contrastive Supervision)
爲了讓模型僅從 2D 輸入中學到 3D 一致的實例特徵,團隊設計了一個多視角對比損失 Lmvc。 該損失的核心思想是:在特徵空間中,「拉近」來自不同視角但屬於同一 3D 實例的像素特徵,同時「推開」屬於不同實例的特徵。
其中 m(pi) 和 m(pj) 分別是像素 pi 和 pj 的實例 ID,而 fpi 和 fpj 是其對應的實例特徵。
其核心思想是將3D模型的統一表示與下游的特定語言模型(VLMs 或 LMMs)進行「解耦」 。
這與以往的方法不同,以往的方法通常將3D模型與特定的語言模型(如LSeg)「緊密耦合」或「強行對齊」,這限制了模型的感知能力和擴展性 。首先利用無監督聚類(HDBSCAN)將IGGT預測的3D一致性實例特徵分組,從而將場景分割為不同的對象實例 。
這些聚類結果隨后被重新投影以生成3D一致的2D實例掩碼 ,這些掩碼充當「橋樑」 ,實現了與各種VLMs(如CLIP、OpenSeg)和LMMs(如Qwen2.5-VL)的「即插即用」式集成 。這種解耦範式極大地擴展了模型的應用範圍:
相比於已有的方法,IGGT是唯一一個能夠同時做到重建、理解和跟蹤三個任務的模型,並在理解和跟蹤指標上大幅提升。
在實例3D跟蹤任務上,IGGT的跟蹤IOU和成功率高達70%和90%,是唯一一個能夠成功跟蹤物體消失又重新出現的模型。
IGGT與SAM2和SpaTracker+SAM進行比較。爲了清晰起見,所有實例都使用不同的 ID 和顏色進行可視化。
團隊同時還針對場景做了充分的可視化實驗,可以看出IGGT 能夠生成3D一致的基於實例的特徵,這些特徵在多個視圖中保持區分性:同一類別的多個實例在 PCA 空間中呈現相似但可區分的顏色。
將3D一致的PCA 結果與基於實例特徵的聚類掩碼進行可視化。PCA 中相似的顏色表示實例間的特徵相似度更高。對於聚類掩碼,同一個對象實例在多個視圖中共享相同的顏色。
在2D / 3D開放詞匯分割任務上,得益於Instance-grounded paradigm的特性,可以無縫接入最新的Vision-Language Model以提升模型的查詢性能。
Scannet 和 Scannet++ 上的 2D 開放詞匯分割的定性結果:
Scannet 和 Scannet++ 上的 3D 開放詞匯分割的定性結果。
此外,團隊還可以利用實例掩碼(instance masks)構建視覺提示(visual prompts),並將其接入如 Qwen-VL 等大型多模態模型(LMM),以實現更復雜的針對場景中特定物體的查詢與問答任務。相反,即便是當前最先進的 LMM 模型,在處理多視圖或三維場景理解方面仍存在顯著的侷限。
與 vanilla Gemini 2.5 Pro 相比,QA 場景理解的應用:
論文鏈接:https://arxiv.org/abs/2510.22706
項目主頁:https://lifuguan.github.io/IGGT_officialHuggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K
本文來自微信公眾號「量子位」,作者:iGGT團隊 ,36氪經授權發佈。