繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI提出的CLIP,被Meta聯合謝賽寧、劉壯,擴展到全球300+語言

2025-07-31 13:09

(來源:機器之心)

在人工智能領域,對比語言 - 圖像預訓練(CLIP) 是一種流行的基礎模型,由 OpenAI 提出,支持零樣本分類、檢索等下游任務,並可作為多模態大語言模型(MLLM)的視覺編碼器。

儘管 CLIP 已經成功地在數十億規模的英語圖文對上進行了訓練,但進一步擴展到全球範圍內的數據仍面臨以下兩項挑戰:

  • 目前缺少有效的方法來處理非英語世界的數據;

  • 現有的多語言版本 CLIP 在英語上的表現通常不如只使用英語訓練的版本,這種現象在大語言模型中也很常見,被稱為「多語言的詛咒」。

爲了解決這些挑戰,來自 Meta、MIT、普林斯頓大學、紐約大學的研究者提出了 MetaCLIP 2,這是首個從零開始在原生全球圖文對上訓練 CLIP 的方法,不依賴任何外部資源,包括私有數據、機器翻譯或蒸餾。可以看到,作者中有 AI 圈知名的學者劉壯和謝賽寧。

實驗證明,CLIP 中的「多語言詛咒」實際上是由訓練規模不足造成的,而這種不足源於缺乏針對全球數據的有效整理與模型訓練策略。研究者發現,當元數據、數據篩選、模型容量與訓練方法被共同精心設計並進行同步擴展時,英語與非英語之間的性能權衡會消失,並且二者之間能夠實現互相促進。

這種「全球尺度」的訓練方式具有極高的價值,尤其考慮到英語互聯網數據即將耗盡的背景。

  • 論文標題:MetaCLIP 2: A Worldwide Scaling Recipe 

  • 論文地址:https://arxiv.org/pdf/2507.22062v1

  • GitHub 地址:https://github.com/facebookresearch/MetaCLIP

具體來講,MetaCLIP 2 方法建立在英文版本的 MetaCLIP 基礎之上,並刻意與 OpenAI CLIP 的原始架構保持最大程度的一致。這種架構上的重合,使得本文的研究發現可以被更廣泛地應用於 CLIP 及其變體,而不僅僅是某些追求 SOTA 的系統性工作,因為后者往往依賴於大量技術組合,涉及混合因素或使用外部資源來比較,而不是專注於 CLIP 本身。

爲了實現真正意義上的全球擴展能力,MetaCLIP 2 提出了三項核心創新:首先是元數據拓展,將英文 MetaCLIP 使用的元數據擴展到了 300 多種語言,涵蓋維基百科與多語言 WordNet。其次是數據篩選算法,設計了按語言劃分的子串匹配與均衡算法,使非英語數據的概念分佈儘可能接近英文數據。最后是訓練框架,首次設計了全球範圍的 CLIP 訓練方案,其中在訓練過程中,隨着非英語數據量的引入,成比例地增加圖文對的使用次數,並研究了在全球數據規模下所需的最小可行模型容量。

如下圖 1 所示,雖然 ViT-L/14(OpenAI 使用的最大模型)仍然受到「多語言詛咒」的影響,但更大的 ViT-H/14 模型則打破了這一限制。在 ImageNet 上的英語準確率從 80.5% 提升到了 81.3%,並且在多語言圖文檢索任務中也創下了新的 SOTA 成績(XM3600 64.3%、Babel-ImageNet 50.2%、CVQA 57.4%),而這一切幾乎沒有改變 CLIP 的核心架構。

綜合來看,MetaCLIP 2 實現了多項令人期待的成果。

一,英語與非英語數據之間實現了互利:非英語數據能夠更好地增強英語模型的能力,反之亦然,這一點在英語互聯網數據日益枯竭的當下尤為關鍵。

二,完全支持多語言:MetaCLIP 2 從不因語言而丟棄圖文對,模型性能全面超越現有多語言系統,如 mSigLIP 和 SigLIP 2。

三,原生語言監督:模型直接學習來自母語使用者所寫的圖像描述,而非依賴機器翻譯生成的合成文本。

四,文化多樣性:MetaCLIP 2 保留了全球圖像的完整分佈,涵蓋了廣泛的文化和社會經濟背景,有助於提升地理定位與區域識別的能力。

五,無過濾理念:通過面向全球設計的數據篩選算法,MetaCLIP 2 移除了整個訓練流程中最后一個語言過濾器(即是否為英文描述),提升了多樣性並減少了人為偏差。

六,基礎數據影響力更廣泛:本研究提供了一個全球規模的圖文對基礎數據集,不僅有利於 CLIP 本身,也為其他使用 CLIP 數據的工作提供了支持,例如多模態大模型(MLLM)、自監督學習(如 Web-DINO)以及圖像生成(如 DALL-E 和擴散模型)。

論文一作 Yung-Sung Chuang 在社媒 X 上表示,「是時候捨棄語言過濾器了。」

MetaCLIP 2 架構算法

擴展 CLIP 到原生全球數據包含三個步驟,(1)構建全球範圍的元數據,(2)實施全球範圍的數據篩選算法,以及(3)搭建面向全球模型的訓練框架。爲了確保方法和結論具有泛化性,MetaCLIP 2 在設計時儘量與 OpenAI CLIP 和 MetaCLIP 保持一致,僅在必要之處做出調整,以更好地從全球數據中學習。 

世界範圍內的元數據

本文通過構建覆蓋非英語世界所缺失的元數據,來解決全球規模化進程中的首要挑戰。他們為每種語言維護獨立的元數據集,這種設計既符合直覺(例如同一個單詞 mit 在英語和德語中含義不同),又能提升系統性能,同時便於未來靈活地新增和優化其他語言版本。

元數據與 OpenAI CLIP 和 MetaCLIP 同源(均來自四大數據源),但覆蓋了英語之外的語種。核心改進如下:

  • Multilingual WordNet:納入 31 種語言的全部同義詞集;

  • Wikipedia 單元詞;

  • Wikipedia 連續詞:基於 2024 年 5 月的維基百科語料庫(含 329 種語言),使用 WikiExtractor 工具清洗為純文本。多數語言通過空格和標點分詞后統計詞頻;對無空格分隔的語種(如部分亞洲語言),則採用當地社區開發的開源分詞器,在保持語義完整的前提下切分詞匯。

篩選數據算法的偽代碼如算法 1 所示,原始圖文對數據集 D、元數據集 M 等作為輸入,經過三個階段,輸出一個平衡且多樣化的訓練數據集 D∗ 。

訓練框架

本文進一步設計了全球數據範圍內的 CLIP 訓練框架。為確保該框架及研究成果能推廣至 CLIP 及其衍生模型,本文延續了 OpenAI/MetaCLIP 的訓練設置和模型架構,並新增三個關鍵組件:(1) 多語言文本 tokenizer,(2) 可見訓練對的規模擴展(scaling seen training pairs),以及 (3) 最小可行模型容量研究。

可見訓練對規模擴展。當數據分佈從單一英語擴展到全球多語言時,可用圖文對數量隨之增長。若在全球版 CLIP 訓練中保持與英語 CLIP 相同的訓練對採樣量,將導致英語訓練對被降採樣,進而損害模型在英語任務上的性能。為此,本文根據非英語數據規模的增長比例同步擴大訓練對總量,確保英語訓練對數量在全球訓練過程中保持不變。

具體實現上,本文通過擴大全局訓練批次規模(同時保持其他超參數不變)來實現這一目標 —— 此舉既能維持英語數據比例,又能促進跨語言學習。基於英語數據佔訓練集 44% 的實際情況,本文選擇將全局批次擴大 2.3 倍。

實驗結果

關於數據集和訓練設置,研究者遵循 MetaCLIP 的流程,從互聯網上收集公開可用的圖文對。在進行語言識別之后,大約 44% 的圖像描述(alt-text)為英文,這一比例與 MetaCLIP 中英文數據的規模相當。

爲了讓本文的訓練方法和實驗結果具有普遍適用性,研究者主要基於 OpenAI 的 CLIP-ViT-L/14 模型和 MetaCLIP-ViT-H/14 模型進行訓練。完整的訓練細節見下表 6。

研究者首先在一系列英文與多語言的零樣本遷移評測基準上,展示了 MetaCLIP 2 的主要消融實驗結果,並與其他多語言版本的 CLIP 模型進行對比。

結果如下表 1 所示,在 ViT-H/14 模型上使用全球數據並擴大訓練中所見圖文對數量時,MetaCLIP 2 在英文和多語言任務上都穩定優於僅用英文(1.0 倍)或非英文(1.3 倍)數據的對照組,有效地打破了「多語言的詛咒」。而在圖文對數量未擴展的情況下(如 Worldwide 1.0 倍)或者使用較小的 ViT-L/14 模型(即使使用了 2.3 倍的全球數據),這一詛咒仍然存在。

儘管 MetaCLIP 2 的目標並不是追求 SOTA,但其完整的訓練方法在使用更少圖文對(僅為 SigLIP 系列的 72%)和更低分辨率(224px,mSigLIP 為 256px)的前提下,依然展現出了強勁性能。

在多個基準上,MetaCLIP 2 超越了 mSigLIP(如 IN、SLIP 26、DC 37)以及最近的 SigLIP 2(后兩個任務)。更重要的是,MetaCLIP 2 在多個多語言評測中創下新的 SOTA 紀錄,例如在 Babel-ImageNet 上提升 3.8%、在 XM3600 上提升 1.1% / 1.5%、在 CVQA 上提升 3% / 7.6%、在 Flickr-30k-200 上提升 7.7% / 7% 以及在 XTD-200 上提升 6.4% /5.8%。

相比之下,SigLIP 2 更側重英文訓練(其訓練數據中有 90% 為英文),因此在多語言任務上的表現不如 mSigLIP,在大多數英文評測上也不如 MetaCLIP 2,唯一的例外是 ImageNet。

研究者進一步進行消融實驗,探討了從「僅基於英文的元數據和篩選策略」過渡到「面向全球多語言的設置」對模型性能的影響。爲了提高實驗效率,他們在 ViT-B/32 編碼器上進行訓練,並在 ImageNet(IN)上評估英文零樣本遷移性能,在 Babel-ImageNet、XM3600 和 CVQA 上評估多語言表現。

如下表 2 所示,實驗從英文版 CLIP 開始。首先移除圖像描述(alt-text)的英文過濾器,使所有描述都使用英文元數據進行篩選。這樣做導致 ImageNet 上的性能下降了 0.6%,説明在匹配文本或元數據之前按語言識別對英文內容進行隔離非常重要。

接着,研究者將英文元數據替換為不分語言、混合而成的多語言元數據。結果表明,英文性能進一步下降,但模型開始具備一定的多語言能力。隨后採用逐語言處理的子串匹配策略,在所有語言中使用統一的前十個匹配關鍵詞(ten)進行篩選。這一做法導致英文性能再次下降,因為「ten」值對於非英語語言來説過高,導致數據篩選偏向高頻語言,從而影響整體均衡。

最后,研究者引入了一個名為「t_lang」的調整機制,用於保持每種語言中高頻與低頻概念的比例一致。該機制在提升英語和非英語表現的同時,也優化了各語言之間的均衡分佈。不過,即便如此,在 ViT-B/32 模型規模下,「多語言詛咒」依然未能徹底解決,直到在主消融實驗中引入更大模型與更大規模訓練對數據后才實現突破。

爲了儘量減少對模型架構的修改,研究者僅將英文 tokenizer 替換為多語言 tokenizer。在零樣本評測中,他們測試了四種主流的 tokenizer。正如表 3 所示,XLM-V 的詞匯表在英文和非英文任務中都表現出最優的性能。 

圖 3、表 4 表明,僅僅將訓練數據的分佈從 130 億對英語圖文對切換為 130 億對全球圖文對,就能帶來顯著的性能提升;進一步擴展到 290 億對全球圖文對時,性能繼續提升,唯一的例外是 GeoDE,表現與前者持平,可能已經接近飽和。圖 3 中的小樣本地理定位評估也呈現出類似趨勢。 

研究者進一步評估了不同 CLIP 模型在嵌入質量方面的表現。從圖 4 可以看出,MetaCLIP 2 在對齊度和均勻性兩個指標上均表現良好(值更低),而 mSigLIP 、 SigLIP 2 存在一定的偏差。

更多實驗結果請參閱原論文。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。