繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

超越英偉達Describe Anything,中科院 & 字節聯合提出「GAR」,為DeepSeek-OCR添磚加瓦

2025-10-28 15:25

近期,DeepSeek-OCR提出了「Vision as Context Compression」的新思路,然而它主要研究的是通過模型的OCR能力,用圖片壓縮文檔。

那麼自然圖像是否也能作為文本的壓縮呢?中科院&字節聯合提出的「Grasp Any Region」提供了新思路。

團隊認為,他們的最新工作Grasp Any Region (GAR)所實現的精準region captioning能力,為構建自然圖像的Dense Caption,提供了潛在的可能路徑之一。

具體而言,GAR具備三種能力:

1、精準描述用户指定的 region。

2、建模多個 region 之間的關係

3、進行復雜的組合推理(例如圖片所示的非實體判別)。

下面來具體看看。

局部細節與全局信息的trade-off

首先,什麼是Region MLLMs?

與傳統MLLMs不同,Region MLLMs旨在對圖片/視頻內容進行細粒度、可交互式的理解。

具體來説,用户可以提供各種各樣的visual prompts (regions)以及user instructions,模型需要基於此,對特定region進行準確理解。

例如,「請描述這個區域」,或「區域1和區域2之間是什麼關係」,甚至判斷「區域1和區域2是否在鏡子當中」。

其次,為什麼要研究Region MLLMs?

DeepSeek-OCR的本質是依賴多模態大模型對圖片進行精準caption的能力,也初步探索了基於自然圖片的全圖caption進行信息壓縮的道路。

然而,全圖的caption往往難以評測。

Region Caption就不一樣了,對於用户指定的Region,很容易就可以從色彩、紋理、形狀、材質等基礎方面,客觀地對模型的caption進行評測,正如英偉達Describe-Anything所做的DLC-Bench那樣。

如果一個模型有了精準的region caption能力,那麼就可以結合SAM,將精準的region captions其merge成一個詳細且準確的全圖caption,進一步實現了信息的壓縮。

更重要的是,這部分detailed caption不僅能惠及 MLLM 的預訓練,也能輔助生成模型理解複雜的用户指令。

此外,Region caption本身也能作為AIGC中的編輯模型和場景生成模型的重要數據來源。

多年以來,Region MLLMs一直夾在局部細節與全局信息之間的兩難困境。

浙江大學研究員所提出的Osprey通過masked pooling獲得局部特徵,導致局部細節丟失;

而英偉達所提出的DAM(Describe Anything Model)額外輸入一張裁切后的子圖,導致全局信息丟失。

圖 2:GAR-1B與DAM-3B針對同一區域描述的對比

比如,上面這個例子展示了DAM全局信息丟失的現象。用户指定的區域明明是一個青蛙樣式的拖鞋,但是DAM會錯誤識別為青蛙。

有圖有真相

相比之下,GAR能夠對用户指定區域實現精確的理解,產出更準確的描述。

例如,GAR能夠正確識別並描述物體,而DAM均出現了錯誤識別。

並且GAR能夠針對極小物體,進行精準識別。

還能夠針對極小物體進行精準識別。

進而,它能利用極小的圖像細節,正確建模物體之間的關係。

特別是下圖右側這個例子,OpenAI-o3和Gemini-2.5-Pro都誤認為人在看書。

然而,實際上人的眼睛正在看鏡頭,她僅僅是拿着書,而並非在看書。這凸顯出GAR模型對於細節理解能力之強

GAR還能夠進行復雜的組合推理,例如綜合判斷多個 prompt 是否在鏡子當中。

此外,GAR能夠很好的遷移至視頻描述中,對視頻中的appearence描述十分準確。

同時,在視頻理解任務中,GAR能夠精準地識別視頻中的物體、人物與動作,進行語義層次的深度分析。

還能夠對視頻中的單個區域進行精準的理解,甚至還能識別motion信息(如下面右圖的例子)。

哇哦,這麼強勁的表現,究竟是怎麼做到的? 

細粒度+全局上下文

具體而言,團隊在設計GAR模型時,遵循了「既要實現對提示區域的細粒度理解,同時又要保留並利用整個場景的全局上下文」的核心原則。

如下圖所示,團隊在傳統MLLM架構中引入兩個全新組件:

1、簡潔高效的prompt encoding方案;

2、創新性的區域對齊(RoI-aligned)特徵回放技術。

GAR通過視覺編碼器對整個場景生成全局特徵圖,從而完整保留全局上下文信息。

同時,RoI-Aligned Feature Replay機制,能夠為特定目標對象提取高保真度特徵。

最終,全局上下文特徵與精細化局部特徵將共同輸入LLM,以精準推理多個對象間的複雜關聯與交互關係。

具體下面來看。

為將空間引導信息融入視覺骨干網絡,團隊引入了一套輕量級提示編碼機制。

首先,用户指定的二值掩碼,經一個簡單的從零初始化的卷積塊處理后生成mask embedding;

隨后,將其與ViT的patch embedding相加,完成空間信息與視覺特徵的融合。

為同時提供充足的局部細節與必要的全局上下文,團隊提出區域對齊(RoI-aligned)特徵回放技術。

具體而言,模型通過切圖的方式處理完整、未裁剪的圖像(包含了mask prompt),生成全局特徵圖,這類特徵富含上下文信息。

接着,根據輸入mask為感興趣區域生成對應bbox,並採用RoI-Align技術,直接從全局特徵圖中提取該區域的相關特徵,如圖3右側所示。

由於這些特徵本質上源自「基於整幅圖像計算的特徵圖」,因此天生具備上下文感知能力。

同時,回放后的特徵能為后續語言模型提供用户指定區域的「高細節、高分辨率」的特徵表示,助力其實現細粒度理解。

這種「富含上下文特徵的重放」機制,讓GAR既能「聚焦細節」,又不「忽視全局」。

實驗證明,該設計可同時實現兩大目標

1、提供充足局部細節。

2、保留全局上下文。

為提升模型「單區域基礎目標識別」的能力,進而支持「多區域複雜關聯推理」,團隊設計了多階段流程以生成大規模、高質量數據集,具體如圖4所示。

具體而言,首先以種子數據集訓練種子描述生成模型,基於此模型在ImageNet-21K這一細粒度圖像分類數據集上推理,根據類別名稱進行過濾,構建45.6萬條細粒度描述數據;

隨后結合上述兩類數據集訓練細粒度描述生成模型,並藉助Panoptic Scene Graph數據集的標註信息,生成足量的關聯感知型描述及問答對。

最終,團隊使用這三部分數據對GAR模型進行訓練。

階段1:提升識別能力

初始階段,團隊以Describe Anything-1.5M數據集為基礎。

但團隊發現,該數據集訓練出來的模型(Seed-Captioner)在細粒度識別能力上存在不足:模型常常出現錯誤的物體識別,這限制了其在更復雜場景下生成描述的質量。

為解決這一問題,團隊巧妙地引入ImageNet-21K數據,因其ImageNet-21K是極具代表性的細粒度分類數據集,以類別標籤的詳盡性與覆蓋廣度著稱。

團隊先通過Seed-Captioner生成初始region caption,再利用LLM將生成的描述與真實類別標籤進行驗證,最終得到含456K樣本的精細化細粒度數據集。

隨后,團隊結合上述兩類數據集,訓練細粒度描述生成模型(Fine-Grained-Captioner)。

階段2:支持多區域關聯推理

為進一步實現對多區域的關聯理解與推理,團隊引入了Panoptic Scene Graph (PSG)數據集。

具體步驟如下:

首先,調用Fine-Grained-Captioner為每個區域生成詳細描述;

接着,將Qwen2.5-72B作為「LLM 融合器(LLM-Merger)」,結合PSG數據集提供的原始標註信息,生成三類數據:

1、144K條明確融入關聯上下文的豐富目標描述;

2、144K組用於考察複雜關聯理解能力的問答對;

3、126K道選擇題。本階段最終構建出含414K樣本的關聯數據集。

最后,本文引入GAR-Bench。

這是一套綜合性基準測試套件,旨在系統性評估多模態大語言模型(MLLMs)的區域級理解能力,包括單區域理解以及多區域理解。

該測試集的構建遵循三大核心設計思路:

1、在任務設置上,略微側重推理能力而非感知能力;

2、通過多 visual prompts 設計提升問題難度,例如部分問題的提示詞數量甚至達到 7 個與 9 個;

3、控制單個提示詞對應的區域面積,使其佔比極小,平均僅為 4.4%。

該測試集具體分為兩大核心組件:多提示詞描述任務(GAR-Bench-Cap)與多維度視覺問答任務(GAR-Bench-VQA)。

其中,GAR-Bench-Cap用於評估模型的敍事整合能力——即能否以連貫的表述,描述多個visual prompt之間的複雜關聯與交互關係

GAR-Bench-VQA則進一步將模型理解能力拆解為兩個關鍵維度:

1、針對給定提示詞的基礎屬性感知能力;

2、以區域為核心的高階組合推理能力,要求模型整合提示詞及其周邊上下文的信息進行推理。

例如,識別某個物體在全局中的排列位置(第幾行第幾列),以及判斷某個物體是否為實體。

直逼最強推理模型

再來看看數據表現如何。

團隊首先衡量GAR的高階理解能力,它要求精準建模多個提示詞之間的複雜關聯。

為評估該能力,團隊在GAR-Bench-VQA測試集上開展了全面對比實驗。

如表1所示,GAR-8B模型取得了59.9分的優異綜合成績,其表現甚至超過了性能強勁的私有先進非推理模型GPT-4o,直逼最強推理模型o3和Gemini-2.5-Pro!

此外,GAR-1B模型的表現凸顯了團隊方法在效率與效果上的優勢。

儘管該模型參數量遠小於其他對比模型,但其綜合得分為50.6分,性能超過了InternVL3-78B等大規模公開模型。

這一優勢在細粒度感知任務中尤為明顯:GAR-1B與GAR-8B在「紋理(Texture)」維度的得分分別達到69.0分和75.9分,顯著超越其他模型。

進一步地,團隊專注于衡量GAR生成caption的準確性。團隊在一系列高難度數據集上對GAR模型進行基準測試,結果持續證明其具備當前最先進的性能。

如表2所示,在GAR-Bench-Cap測試集上,GAR-1B與GAR-8B分別取得57.5分和62.2分的最高綜合成績,表現甚至超過Gemini-2.5-Pro等性能強勁的私有模型。

表3中DLC-Bench的測試結果進一步驗證了這一優勢:無論以LLaMA3.1還是GPT-4o作為評判模型,GAR-1B與GAR-8B的性能均優於DAM-3B,成為新的SOTA。

如表4所示,GAR模型在Ferret-Bench與MDVP-Bench上的零樣本表現尤為值得關注。

在這兩個測試集的所有細分類別中,GAR模型均位列第一。其中在MDVP-Bench測試集上,GAR模型的領先優勢更為顯著:GAR-8B在自然圖像任務中取得178.6分,該成績大幅超過所有競品模型。

綜上,通過在多個基準測試集上的全面評估可明確證明:在生成豐富、準確且細節化的局部描述任務中,GAR模型已成為新的當前最先進方案。

甚至,團隊驚喜地發現,GAR的能力可以zero-shot遷移至video。團隊直接將GAR模型擴展至視頻任務,並分別在VideoRefer-Bench-D與VideoRefer-Bench-Q測試集上進行評估,結果如表6、表7所示。

在zero-shot的設置下,GAR-8B模型性能超過DAM-8B。更重要的是,如表7所示,zero-shot的GAR-8B甚至優於in-domain訓練的VideoRefer-7B模型!這表明其強大的理解能力可輕松遷移至視頻任務。

不過,由於GAR模型實際僅使用圖像數據訓練,因此在與時間相關的任務上得分偏低。例如表6中的TD與表7中的Future Prediction,均體現出這一侷限。

團隊相信,GAR將推動MLLM真正理解稠密的視覺世界,也為信息壓縮提供了新的視角與可能。

最后,同時,團隊認為,GAR可以作為一個很好的Data-engine的工具使用。

例如——

1、訓練一個多模態理解模型時,往往需要精細的圖像/視頻描述作為預訓練,試試GAR吧。

2、練一個文生圖或文生視頻模型時,往往需要精細的描述以提升模型對於複雜文本的指令遵循能力,試試GAR吧。

3、訓練一個細粒度的編輯模型時,往往缺乏針對待編輯區域的精準描述,也試試GAR吧~

此外,GAR可以天然作為一個Reward Model,作為多模態理解任務的中post-training階段使用,提供準確的區域理解獎勵信號!

而且,團隊的論文、代碼、和模型全部開源了,並且支持了基於gradio的本地部署。

下面是gradio demo的使用姿勢,用户只需要通過點擊鼠標,GAR就會根據SAM生成的mask,對指定區域進行十分細節的描述,歡迎大家試用~

論文:https://huggingface.co/papers/2510.18876GitHub:https://github.com/Haochen-Wang409/Grasp-Any-Region抱抱臉:https://huggingface.co/collections/HaochenWang/grasp-any-regionhttps://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region

本文來自微信公眾號「量子位」,作者:GAR團隊,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。