熱門資訊> 正文
2025-08-16 10:00
henry 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,Meta發佈了全新開源視覺模型DINOv3——
首次證明了自監督學習模型能夠在廣泛任務中超越弱監督學習模型。
DINOv3採用無標註方法,將數據規模擴展至17億張圖像、模型規模擴展至70億參數,並能高效支持數據標註稀缺、成本高昂或無法獲取的應用場景。
DINOv3不僅在缺乏標註或跨領域的場景(網絡圖像與衞星影像)中表現出絕對的性能領先,還在計算機視覺三大核心任務(分類、檢測、分割)上實現了SOTA。
網友表示:我還以為你們已經不行了,好在你們終於搞出點東西來了。
計算機視覺的自監督學習
説起計算機視覺,就繞不開李飛飛老師推動的ImageNet和大規模標註數據。
然而,隨着數據量的激增以及應用場景不斷擴展,標註成本和可獲取性成爲了制約視覺模型通用性的主要因素。
基於這一思路,DINOv3採用了創新的自監督學習方法,專注於生成高質量且高分辨率的視覺特徵,為下游視覺任務提供強大的骨干模型(backbone)支持。
通過這一方法,DINOv3首次實現了單一凍結視覺骨干網絡(Single Frozen Vision Backbone)在多項密集預測任務(Dense Prediction Tasks)中超越專門化解決方案的性能。
那麼,DINOv3是怎麼做到的?
總的來説,DINOv3的訓練過程分為兩個主要階段:
DINOv3在一個龐大且精心構建的數據集上進行大規模自監督訓練,從而學習到通用且高質量的視覺表示
引入名為「Gram anchoring」的新方法來解決訓練中密集特徵圖的退化問題,在不影響全局特徵的同時,顯著提升局部特徵的質量
具體來説,研究者首先構建了一個包含約17億張圖片的預訓練數據集。
這些圖片數據主要來自Instagram上的公開圖片,以及少量來自ImageNet的圖片。
在對數據集進行分類、採樣后,研究者採用判別式自監督(Discriminative Self-supervised),通過Sinkhorn-Knopp算法和Koleo正則穩定特徵分佈,實現了細粒度又穩健的密集特徵學習。
此外,在繼承DINOv2成功方法的基礎上,DINOv3將模型參數從11億擴展至70億,以增強骨干網絡的表示能力,從而能夠從海量圖像中學習更豐富、細粒度的視覺特徵。
相比v2,DINOv3在訓練策略上引入了RoPE-box jittering,使模型對分辨率、尺度和長寬比變化更具魯棒性,同時保留多裁剪訓練和恆定學習率+EMA教師動量優化的做法,確保訓練穩定且高效。
在大規模訓練中,DINOv3的70億參數模型可以通過長時間訓練顯著提升全局任務性能,因此研究者在最初就寄希望於長時間訓練。
然而,密集預測任務(如圖像分割)往往會隨着訓練迭代次數的增加而下降,而這種退化主要源於patch-level(補丁級別)特徵的一致性喪失:
隨着訓練進行,原本定位良好的patch特徵逐漸出現不相關patch與參考patch相似度過高的現象,從而削弱了模型在密集任務中的表現。
爲了應對這一問題,研究團隊提出了「Gram anchoring」方法,即通過將學生模型的patch Gram矩陣逼近早期訓練階段表現優異的教師模型的Gram矩陣,來保持patch間的相對相似性,而不限制特徵本身的自由表達。
實驗表明,在應用Gram anchoring后,ADE20k分割任務有着顯著的提升,且訓練穩定性明顯增強。
這表明保持patch-level一致性與學習判別性全局特徵之間可以有效協調,而在有針對性的正則化下,長時間訓練也不再犧牲密集任務表現。
此外,通過將高分辨率圖像輸入到Gram教師並下采樣至與學生輸出相同的尺寸,仍然獲得了平滑且一致的patch特徵圖。
實驗結果顯示,即便經過下采樣,高分辨率特徵中優越的patch-level一致性仍得以保留,從而生成更加平滑、連貫的patch表示。
最后,由於DINOv3在最初訓練時使用了相對較低的分辨率(256×256),爲了讓模型適應高分辨率的圖像場景,研究團隊在訓練后增加了一個「高分辨率適應步驟」,從而讓模型在學會處理更大尺寸圖像的同時,還能保持性能穩定。
在這一適應步驟中,DINOv3結合了「混合分辨率」(mixed resolutions)策略與Gram anchoring方法,使模型在處理更大、更復雜的圖像時仍能保持穩定且精細的特徵表示,同時兼顧全局任務與密集預測任務的性能。
最后,爲了驗證DINOv3的性能,研究團隊在包含密集特徵、全局特徵任務在內的多個計算機視覺任務上對DINOv3 7B模型進行了評估。
就像我們在開頭提到的,DINOv3在語義分割、單目深度估計、非參數方法、3D對應估計等任務中實現了SOTA。
值得一提的是,由於DINOv3強大的通用性,它還消除了研究人員與開發者爲了特定任務而對模型進行微調的必要。
此外,爲了方便社區部署,Meta還通過蒸餾原生的70億參數模型DINOv3,構建了一個開發環境友好的v3模型矩陣:VisionTransformer(ViT)的Small、Base和Large版本,以及基於ConvNeXt的架構。
其中,ViT-H+模型在各種任務上取得了接近原始70億參數教師模型的性能。
據悉,Meta也透露將發佈具體的蒸餾流程,以便社區能夠在此基礎上繼續構建與改進。
DINO行動
在實際應用中,DINOv3也展現了強大的泛化能力。
例如,在與世界資源研究所(WRI)合作中,Meta利用DINOv3開發了一種算法,能夠利用DINOv3分析衞星影像,檢測受影響生態系統中的樹木損失與土地利用變化。為全球森林恢復和農業管理提供了強有力的技術支持。
與DINOv2相比,在使用衞星與航空影像進行訓練的情況下,DINOv3將肯尼亞某地區樹冠高度測量的平均誤差從4.1米降低至1.2米。
除此此外,DINOv3還在多個遙感任務(包括語義地理空間任務和高分辨率語義任務等)中取得了SOTA。
最后,DINO(Distillation With NO Labels)系列作為Meta對視覺領域自監督方法的探索,可以説是一脈相承,繼往開來,標誌着視覺模型大規模自監督訓練的持續進步。
從DINO的初步研究概念驗證,使用100萬張圖像訓練8000萬參數的模型,
到DINOv2中基於1.42億張圖像訓練的1B參數模型,SSL算法的首次成功擴展,
再到如今DINOv3的70億參數和17億張圖片,
Meta的這套自監督訓練方法有望引領我們邁向更大規模、通用性更強,同時更加精準且高效的視覺理解。
就像Meta在技術文檔中所描述的:
DINOv3不僅可以加速現有應用的發展,還可能解鎖全新的應用場景,推動醫療健康、環境監測、自動駕駛、零售以及製造業等行業的進步,從而實現大規模、更精準、更高效的視覺理解。
參考鏈接
[1]https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
[2]https://x.com/AIatMeta/status/1956027795051831584
[3]https://github.com/facebookresearch/dinov3
[4]https://ai.meta.com/blog/dinov3-self-supervised-vision-model/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=dinov3
[5]https://ai.meta.com/research/publications/dinov3/
(聲明:本文僅代表作者觀點,不代表新浪網立場。)