繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

RAG、Search Agent不香了?蘋果DeepMMSearch-R1殺入多模態搜索新戰場

2025-10-17 10:10

(來源:機器之心)

蘋果最近真是「高產」!

這幾天,蘋果在多模態 web 搜索中發現了賦能多模態大語言模型(MLLM)的新解法

在現實世界的應用中,MLLM 需要訪問外部知識源,並對動態變化的現實世界信息進行實時響應,從而解決信息檢索和知識密集型的用户查詢。當前的一些方法,比如檢索增強生成(RAG)、search agent 以及配備搜索功能的多模態大模型,往往存在流程僵化、搜索調用過多以及搜索查詢構造不當等問題,導致效率低下以及結果不理想。

爲了克服以往研究中暴露出的侷限,蘋果提出了 DeepMMSearch-R1 模型。該模型能夠按需執行多輪網絡搜索,並可針對文本與圖像搜索工具動態生成查詢,如圖 1(右)所示。具體而言,DeepMMSearch-R1 能夠通過自我反思與自我糾正,在多輪交互中自適應地生成和優化文本搜索查詢,並利用檢索到的內容作為反饋以及結合原始問題進行改進。

爲了提升圖像搜索的效果,蘋果引入一個中間圖像裁剪工具(Grounding DINO來應對背景噪聲和干擾性視覺實體帶來的挑戰。過程中,DeepMMSearch-R1 首先生成與問題最相關視覺實體的指代表達,然后利用該表達由裁剪工具動態識別並裁剪出圖像中對應的區域。生成的裁剪圖像隨后被用於圖像搜索,以檢索與上下文更相關的結果。這種有針對性的搜索方式顯著提升了檢索質量,並大幅提高了整體性能。

蘋果採用兩階段訓練流程:首先進行有監督微調(SFT),然后通過 GRPO 算法進行在線強化學習(RL)。其目標是讓模型學會何時發起搜索、使用哪種工具、搜索什麼內容,以及如何基於檢索到的內容進行推理,以決定下一步行動:是直接給出最終答案,還是進一步優化查詢併發起新一輪搜索。

本文主要包括以下三個方面的貢獻:

一是提出新的數據集 DeepMMSearchVQA。該數據集包含多樣化多跳視覺問答樣本,並以多輪對話的形式呈現。它在不同知識類別之間保持平衡分佈,涵蓋了既需要搜索又無需搜索的問題類型。

二是構建真實世界的多模態搜索流程,並整合了三種工具:(1)文本搜索工具,使模型能夠發出有針對性的查詢,從而檢索相關網頁並獲取最新的事實性知識;(2)基於 Grounding DINO 的圖像定位工具,可根據模型生成的與問題視覺實體相關的指代表達,識別並裁剪輸入圖像中的相關區域;(3)圖像搜索工具,可基於輸入圖像(無論是裁剪圖還是完整圖)檢索網頁內容,包括標題與描述,幫助模型通過網絡信息識別不熟悉的視覺實體。

三是通過兩階段訓練過程實現了 SOTA 性能,超越以往的開源基線模型(見圖 1)。該訓練過程包括使用 SFT 進行冷啟動初始化,隨后採用 GRPO 算法進行在線強化學習。

  • 論文標題:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

  • arXiv 地址:https://arxiv.org/pdf/2510.12801

針對蘋果的最新研究,有人認為「這可能是蘋果邁向 AI 原生 LLM 和多模態搜索引擎的第一步」。

數據集 DeepMMSearchVQA

蘋果在數據集構建過程中遵循兩個核心原則:(1)數據集應具備多樣性,並覆蓋完整的知識分類體系;(2)問題應同時包含無需搜索與需要搜索的類型,並以多輪對話的形式呈現,以促進模型的推理、自我反思與自我糾正。圖 2(上)展示了用於數據集構建的自動化流程概覽。

蘋果從 InfoSeek 訓練集隨機選取了 20 萬個樣本,並生成帶有工具標籤、推理步驟及網頁檢索信息的多輪對話數據。為確保質量,蘋果僅保留其中 Gemini-2.5-Pro 的預測結果與 InfoSeek 提供的真實答案一致的對話,從而得到約 4.7 萬條精煉對話樣本

隨后使用 Gemini-2.5-Pro 據知識分類體系對問題進行分類,並從這些類別中採樣 1 萬個視覺問答(VQA)樣本,以在不同知識類型之間實現大致平衡的分佈。同時進一步確保數據集中搜索類與非搜索類問題的數量大致相等。

圖 2(下)展示了知識分類體系、需要圖像搜索、文本搜索或兩者兼用的問題比例,以及不同輪次對話樣本的分佈情況。最終得到的 1 萬個 VQA 樣本構成了有監督微調階段的訓練語料

DeepMMSearch-R1 兩階段訓練流程

有監督微調階段

蘋果採用 Qwen2.5-VL-7B-Instruct 作為基礎模型,並僅對其語言模型(LLM)模塊進行有監督微調,同時保持視覺編碼器和視覺投影層凍結不變。此方法能夠保留強大的預訓練圖像表徵能力,並確保模型的適應過程專注於提升語言模型在網頁檢索信息上的推理能力,以及遵循結構化工具使用流程的能力。

訓練目標方面,蘋果採用標準的因果語言建模(Causal LM)目標函數。給定一個多模態輸入 (x, I),其中包括文本問題和對應圖像、以及包含完整推理過程、工具調用和最終答案的多輪對話 y*,訓練中的模型在給定所有前文 token 的條件下預測目標序列中的每一個 token。

強化學習階段

RL 階段基於組相對策略優化(Group-Relative Policy Optimization,GRPO),該方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略優化( Proximal Policy Optimization,PPO)的基礎上進行了擴展,通過對同一提示詞下生成的候選回覆進行比較,從而提升訓練的穩定性。

不同於獨立評估每個 rollout(展開過程或推理軌跡)的方式,GRPO 計算的是相對於同一組採樣 rollout 的平均獎勵的優勢值。

該階段的訓練目標通過帶截斷的重要性加權代理進行優化,這雖與 PPO 類似,但引入了組相對優勢的概念。其數學形式可表示為:

Rollouts:它們由經過 SFT 后的模型檢查點生成。SFT 模型使用已學習的工具調用標籤體系,以與圖像定位工具、圖像搜索工具和文本搜索工具進行交互, 並將這些工具返回的反饋融入后續對話輪次中。該過程會持續進行,直到模型生成最終回答或達到最大輪次數為止。

因此,每個 rollout 都代表一條完整的推理軌跡,並附帶在 SFT 階段學習到的標籤體系。在訓練過程中,蘋果對每條軌跡的工具調用次數和最大 token 長度進行了約束,要求模型在準確性與效率之間取得平衡。

獎勵機制:GRPO 優化過程採用一個結合了事實準確性與結構合規性的複合獎勵函數。蘋果使用 gpt-5-chat-latest 作為獎勵模型,用於判斷模型預測結果在語義上是否與真實答案一致。正確性得分記為 s,取值為二元變量(s ∈ {0, 1}),表示模型最終答案是否被判定為正確。同時,格式得分 s_fmt 用於衡量輸出是否遵循規定的結構化輸出格式,以確保標籤使用正確、工具調用結構有效。最終獎勵的計算公式為:

實驗結果

蘋果表示,配備網絡搜索功能的多模態大語言模型在性能上顯著優於 RAG 工作流和基於提示的搜索代理基線模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相較於 RAG 工作流和基於提示的 search agent 分別取得了顯著的 + 21.13% 和 + 8.89% 的性能提升,同時在整體表現上與 OpenAI o3 相當。

裁剪圖像搜索以及蒸餾得到的自我反思與自我糾正能力可以顯著提升模型性能。蘋果在圖 3(左)中展示了啟用多次文本搜索與裁剪圖像搜索能力所帶來的效果。SFT 基線模型指的是僅使用整圖搜索並進行單次文本搜索調用的設置。可以看到,隨着自我反思與自我糾正機制的引入與蒸餾,模型整體性能得到了提升。

在搜索平衡的 SFT 數據中(即從所有知識分類中均勻採樣樣本的情況),模型表現更優。蘋果首先在 SFT 數據中通過不同的「需要搜索」與「無需搜索」樣本比例進行消融實驗,以研究其對性能的影響。從圖 3(右)可以觀察到,當需要搜索的問題比例較高時,微調后的模型會表現出過度搜索的行為,並在 OK-VQA 和 A-OKVQA 等需要較少搜索調用的數據集上表現較差。

SFT 階段使模型具備使用工具的能力,而 RL 階段則通過減少不必要的調用來優化工具選擇行為。蘋果在圖 4 中總結了模型在 SFT 和 RL 階段后的工具使用情況,分別針對兩個數據集進行了分析。DynVQA 是一個較新的數據集,其中包含更多需要外部信息的問題;而 OKVQA 則相對需要較少的搜索調用。

模型的工具使用行為與各數據集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的樣本上調用了工具;而在 OKVQA 中這一比例為 43.5%。

另外,SFT 模型有時會在不必要的情況下執行裁剪圖像搜索,而 RL 模型能夠糾正此類錯誤,如圖 5 所示。這一現象進一步印證了 RL 在優化工具使用行為、提升使用效率方面的重要作用。

最后,採用 LoRA 模塊進行的 SFT 以及帶有 KL 懲罰項的在線 GRPO 訓練能夠保持模型的通用視覺問答(VQA)能力,如表 2 所示。蘋果觀察到模型在多個數據集上的性能保持穩定,這表明本文提出的模型在學習與網絡搜索工具交互的同時,依然有效地保留了其通用的視覺理解與推理能力。

更多實驗細節,參閱原論文。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。