熱門資訊> 正文
2025-09-01 19:34
智東西9月1日消息,蘋果又公佈了大模型研發新進展!
8月28日,蘋果在arXiv發佈新論文,介紹新一代多模態基礎模型MobileCLIP2及其背后的多模態強化訓練機制,同天在GitHub、Hugging Face上開源了模型的預訓練權重和數據生成代碼。
MobileCLIP2專為零樣本分類和檢索任務設計,推理延迟在3-15毫秒之間,參數規模在50~1.5億不等。
此前基於Transformer的大型編碼器存在較大內存和延迟開銷,為在移動設備上部署帶來的挑戰,基於此,蘋果2023年11月發佈端側多模態大模型MobileCLIP,通過多模態強化訓練方法改進模型在端側的部署效果,MobileCLIP2是其改進多模態強化訓練方法后的升級版模型。
論文中提到,與上一代模型相比,MobileCLIP2-B在圖像分類基準數據集ImageNet-1k上的零樣本準確率提高了2.2%。其模型變體MobileCLIP2-S4在iPhone 12 Pro Max上測得的零樣本準確率可對標參數規模更大的SigLIP-SO400M/14。
此次其改進的多模特訓練訓練機制採用了改進的教師監督(Teacher Supervision)與字幕數據(Caption Data)來提升零樣本性能。
與此同時,在移動端,該訓練機制支持多模態模型直接在移動、邊緣設備上部署,實現零樣本檢索/分類,具有極低的延迟和內存佔用。
目前,MobileCLIP2所有模型變體的預訓練權重均已公開,開發者可以直接部署和進行基準測試。蘋果還發布了數據生成代碼,開發者可以基於此使用分佈式可擴展處理創建具有任意教師的新強化數據集。
模型的預訓練權重鏈接:
https://github.com/apple/ml-mobileclip
強化訓練的數據生成代碼鏈接:
https://github.com/apple/ml-mobileclip-dr
GitHub鏈接:
https://github.com/apple/ml-mobileclip
Hugging Face鏈接:
https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
論文地址:
https://arxiv.org/html/2508.20691v1
MobileCLIP2的核心優勢在於實現了相比現有模型參數規模更小、延迟更低,且不犧牲泛化能力、準確性的性能。
在零樣本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上測得的準確率與SigLIP-SO400M/14相當,但參數量為后者的1/2;在延迟方面,MobileCLIPS2-S4的表現優於DFN ViT-L/14,延迟約為后者的約40%。
零樣本指標提升可以使模型在未經過特定任務、類別或場景的訓練時,無需額外標註數據微調,就能直接將預訓練學到的通用知識遷移到未知任務中。
圖像分類基準數據集ImageNet-1k上的基準測試結果
MobileCLIP2系列模型在不同延迟條件下,38個數據集上平均性能均為最佳。
從下面的測評中看到,MobileCLIP2-S2與SigLIP2-B/32的參數規模差距達到4倍,但性能相當,MobileCLIP2-S4與DFN ViT-L/14相比,推理速度提高2.5倍。
此外,這一多模態訓練機制強調可復現性、可擴展性。目前,MobileCLIPS2的所有模型變體的預訓練權重均已公開,支持開發者直接部署和進行基準測試。
其強化訓練的數據生成代碼支持任意教師集成和分佈式可擴展處理,便於開發者為進一步研究和快速原型設計定製數據集強化。
在移動端,該訓練機制支持直接在移動、邊緣設備上部署,實現零樣本檢索、分類,具有極低的延迟和內存佔用;通過開放數據管道和模塊化的教師、標題生成器集成,可擴展到新的模態或數據域。
MobileCLIP2的多模態強化訓練機制能夠將來自多個來源的知識高效地蒸餾到較小的模型中,並基於基礎圖像-文本對進行操作。
該訓練機制整合了教師監督(Teacher Supervision)與字幕數據(Caption Data),旨在訓練強魯棒和高遷移性,同時最大限度降低訓練或推理過程中的計算開銷。字幕數據指的是與圖像、視頻等視覺內容關聯的文本描述信息。
其核心是通過用DFN預訓練的CLIP模型替換先前的集成來改進教師監督模型,為多模態模型訓練增加合成字幕,也就是圖像、視頻等數據的文本描述信息。
具體來看,首先更強的CLIP教師模型指的是,MobileCLIP2通過用DFN預訓練的CLIP模型替換先前的集成來改進教師監督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的組合構成了教師集成的骨干。
其背后技術細節包括,對每個教師模型獨立進行對數尺度(Logits Scale)的精細調整;集成蒸餾在ImageNet-1k驗證集上比單教師變體提高了高達2.8%,這證明教師信號聚合對於將強性能壓縮到緊湊的學生模型中至關重要;這一精度提升使MobileCLIP2能夠以更少的參數數量和延迟,實現與更大參數規模的模型性能相當或超越。
其次,字幕生成教師模型(Captioner Teachers)通過兩階段協議進行升級優化。
第一階段研究人員在大型DFN-2B數據集上對CoCa風格的描述器進行初始再訓練,以提升對圖像內容的表達能力。
第二階段是在高質量標題數據集MSCOCO-123k、MSCOCO-38k上進行后續微調,生成具有增強語義質量和多樣性的合成標題。
此外,蘋果研究人員的消融研究表明,在精選標題上進行微調可顯著提升零樣本分類和檢索效果。其分析了標題生成的束搜索和採樣策略,發現為每張圖像生成超過1-2個標題的邊際效益不明顯,表明策略性多樣性優於數量。
這些用於蒸餾訓練的合成文本描述,提升了模型的語義覆蓋範圍,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零樣本任務的準確率上提高了2.2%。
在蘋果發佈的論文中提到,MobileCLIP2在多模態模型訓練機制上的改進,與參數高效微調、實時設備端推理以及從大型多模態教師庫中進行可擴展蒸餾等正在進行的大模型發展趨勢高度兼容。
同時,蘋果將所有模型變體的預訓練權重、數據生成代碼開源,也可以幫助開發者加速實驗、應用於新任務以及適應不同計算環境。
本文來自微信公眾號「智東西」,作者:程茜,36氪經授權發佈。