熱門資訊> 正文
2025-10-14 07:45
編輯丨極市平臺
導讀
Meta高級研究員蔡志鵬及其團隊近日發佈了新一代視覺語言模型研究成果——DepthLM。該方法首次證明,無需修改任何架構或損失函數,視覺語言模型(VLM)就能在像素級三維任務上達到與專業視覺模型相當的水平。這項研究標誌着視覺語言模型邁出了通向真實空間理解的重要一步。
論文鏈接: https://arxiv.org/pdf/2509.25413
代碼開源: https://github.com/facebookresearch/DepthLM_Official
模型體驗: https://huggingface.co/facebook/DepthLM
01 從「看圖説話」到「看圖識深度」
視覺語言模型(VLM)在「看圖+理解語義」方面已取得巨大成功,但在理解三維幾何結構時仍存在明顯短板。例如,在絕對深度估計(metric depth estimation)等任務中,即使是最強大的GPT-5或Gemini 2.5 Pro,也無法與專門的視覺模型相媲美。
DepthLM的出現改寫了這一格局。蔡志鵬團隊發現,VLM並非缺乏深度能力,而是缺少合適的空間提示與統一的視覺尺度。通過在訓練和提示階段引入極小的修改,他們證明了標準VLM同樣可以學習精確的三維關係。
02 關鍵創新:不改架構,也能理解三維
DepthLM的核心突破在於,它完全保留了VLM的原始架構和訓練範式(僅依賴文本預測loss),卻顯著提升了模型的三維理解能力。這得益於三個關鍵策略:
視覺提示(Visual Prompting):在圖像上直接標註目標像素位置的小標記,使模型能夠「看見」而非「閲讀」座標。
內參歸一化增強(Intrinsic-Conditioned Augmentation):統一相機內參,消除焦距差異帶來的尺度偏移。
稀疏監督(Sparse Labeling):每張圖僅需1–2個像素標註,仍能訓練出高精度深度模型,大幅降低數據成本。
在這些策略下,DepthLM無需額外的密集預測頭或複雜損失設計,就能自然地獲得像素級深度估計能力。這不僅首次證明了視覺模型依賴的密集預測頭,複雜損失,DINO backbone和密集監督信號均不是實現空間感知的必要條件,也使得DepthLM能夠自然支持靈活的基於語言的多任務訓練,用統一的標準VLM實現各類空間感知任務,無需特別設計專家模型架構。
03 結果:首次讓VLM逼近純視覺專家模型
更令人驚訝的是,在未使用任何正則化或后處理的情況下,DepthLM生成的深度圖更「乾淨」:在邊緣處的「飛點」數量明顯少於傳統模型,顯示出自然的幾何一致性。
此外,DepthLM還擴展到五類典型三維任務(如速度、時間、相機姿態估計等),同樣表現出卓越的泛化能力。研究團隊同步推出了一個名為DepthLMBench的綜合基準,用於評估VLM的三維能力。
04 意義:邁向「統一多模態世界模型」
DepthLM的意義不僅在於性能突破,更在於概念上的轉變。它證明了理解三維空間不需要專門的網絡結構,語言模型本身即可具備空間推理潛力。
這為未來的多模態AI提供了新的方向:
更低的標註成本:僅需稀疏標註即可獲得幾何學習能力;
更強的任務通用性:同一個模型可適應深度估計、相機姿態、運動分析等多任務;
更廣的落地潛力:可直接應用於機器人導航、AR/VR、自動駕駛等需要空間理解的領域。
05 結語
DepthLM的出現,為視覺語言模型開啟了「看出深度」的新時代。它讓我們看到,語言與視覺的融合不僅能理解語義,也能直覺地感知空間。未來,DepthLM或將成為統一感知與推理框架的關鍵一步,為通用人工智能的發展奠定新的基石。