繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenVision 2:大道至簡的生成式預訓練視覺編碼器

2025-09-15 20:17

(來源:機器之心)

本文來自加州大學聖克魯茲分校(UCSC)、蘋果公司(Apple)與加州大學伯克利分校(UCB)的合作研究。第一作者劉彥青,本科畢業於浙江大學,現為UCSC博士生,研究方向包括多模態理解、視覺-語言預訓練與視覺基礎模型。其余作者包括李先航(UCSC)、張樂天(USCS)、王子瑞(Apple)、鄭澤宇(UCB)、周郁音(UCSC)。通訊作者為UCSC的謝慈航教授。

在多模態大模型快速演進的浪潮中,視覺模塊一直是支撐整個體系的關鍵基石。長期以來,CLIP 式的圖文對比學習幾乎成為視覺預訓練的默認思路。從 OpenAI 的 CLIP 到 Google 的 SigLIP,再到一系列開源復現,業界普遍認為:想要獲得強大的視覺編碼器,就必須依賴對比學習。

近日,來自加州大學聖克魯茲分校、蘋果公司、加州大學伯克利的研究者提出了 OpenVision 2,一種極簡的生成式視覺預訓練新方向。這項工作在保持最優性能的同時,大幅提升了訓練效率,並在生成式框架下實現了 10 億參數規模的可擴展訓練。

✍🏻️論文標題:OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

📄 論文地址:arXiv:2509.01644 

🌐 項目主頁https://ucsc-vlaa.github.io/OpenVision2

💻 代碼與模型:GitHub · UCSC-VLAA/OpenVision 

🤗 Hugging Face 模型庫:OpenVision 2 on HuggingFace

從 OpenVision 到 OpenVision 2

今年早些時候,研究團隊在 ICCV 發佈了 OpenVision,這是一個完全基於公開數據和開源代碼訓練的視覺編碼器家族,旨在為社區提供真正開放、透明、可復現的視覺骨干。

該項目一次性開源了超過 25 個預訓練模型,參數量從 590 萬到 6 億+,覆蓋多種 patch size 與分辨率設置,成為學術界和產業界構建多模態模型時的重要替代方案。

實驗顯示,OpenVision 在多個多模態基準任務上已經可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP,為社區提供了可靠的開源替代。

然而,OpenVision 的訓練管線仍然偏複雜。爲了充分利用高質量的合成描述,它在 CLIP 的基礎上引入了兩方面額外設計:

  • 雙重對比目標每張圖像既要和 web caption 對齊,又要和部分合成 caption 對齊,導致文本編碼器的計算量幾乎翻倍,訓練成本也隨之顯著增加。

  • 生成式 caption 預測模型還需要在圖像和原始 alt-text 的條件下,生成完整的合成描述,這進一步增加了解碼器的計算開銷。

這些設計確實提升了表徵質量,但也讓訓練過程變得更重,計算成本更高,擴展到更大規模時受到明顯限制。

極簡思路:生成式的 OpenVision 2

在 OpenVision 2 中,研究者們做出了大膽簡化:直接移除文本編碼器與對比學習,只保留「圖像 → 描述」的生成目標。由此形成的框架僅包含兩個模塊:圖像編碼器 + 文本解碼器

  • 沒有對比學習的雙塔結構

  • 沒有額外的文本塔開銷

  • 依賴高質量合成描述作為唯一監督信號

除此之外,OpenVision 2 還引入了一個關鍵技巧:在預訓練階段隨機丟棄約 2/3 的視覺 token,僅用剩下的 1/3 token 來生成完整描述。

  • 一方面,這大幅減少了文本解碼器的計算負擔,顯著提升了訓練效率;

  • 另一方面,這種「稀疏提示」迫使模型在有限條件下仍要還原出完整的 caption,從而提升了表徵的抽象能力。

這種「以少勝多」的思路,使得 OpenVision 2 在保持性能的同時實現了更高的效率,也印證了「少即是多」的理念。

實驗表明,這一簡化設計不僅沒有削弱模型能力,反而在效率與擴展性上表現突出:

  • 性能在 TextVQA、ChartQA、OCR、MME 等主流多模態基準上,OpenVision 2 與 OpenVision 幾乎持平,甚至在部分細粒度任務上表現更佳。同時,相較於 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流對比學習模型,OpenVision 系列在同等規模下整體表現更強,特別是在 OCR 與文本相關任務上優勢明顯

  • 效率訓練時間縮短 1.5——2 倍,顯存佔用減少近一半,單卡批大小從 2k 擴展到 8k;例如,在 ViT-L/14 上從約 83 小時縮短到 57 小時,在 SoViT-400M 上從約 241 小時縮短到 121 小時。這些改進使得模型在生成式框架下成功擴展到 10 億參數規模,並保持高效訓練,也為進一步探索更大規模的生成式視覺預訓練奠定了基礎。

為什麼有效?

研究者總結了 OpenVision 2 作為生成式視覺編碼器能夠成功的三點關鍵原因:

  • 生成式監督更貼近下游生成任務與多模態大模型(如 LLaVA)的推理方式一致,減少了預訓練與下游任務間的「目標錯位」。

  • 高質量合成描述在 Recap-DataComp-1B v2 中,caption 的生成同時結合了圖像和原始文本,使得描述更細緻、更貼合語義,為預訓練提供了更可靠的監督信號。

  • 視覺 token 隨機掩碼(少即是多)僅保留部分視覺 token 進行生成,既降低算力開銷,又讓模型在「信息不完整」的條件下學會抽取核心特徵,從而提升泛化與魯棒性。

對社區的意義

OpenVision 2 展示了一個重要事實:對比學習並非不可或缺。通過生成式的簡潔框架,同樣能夠訓練出強大的視覺編碼器,並在效率和可擴展性上具備顯著優勢。

這項研究不僅挑戰了長期以來的對比學習主導範式,也為未來多模態基礎模型的發展提供了新的方向。正如作者們所強調的,「大道至簡」的設計理念,展示了生成式視覺預訓練在未來發展的潛力。

從 OpenVision 到 OpenVision 2,研究團隊已經開源了超過 25 個不同規模和配置的模型並完整公開了訓練代碼與數據管線,為學術界和產業界提供了可復現、可擴展的資源基礎,加速社區在生成式視覺預訓練方向上的探索。研究團隊長期歡迎學界和業界的同學和朋友聯繫、交流、合作。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。