繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

ICLR 2026驚現SAM 3,分割一切的下一步:讓模型理解「概念」

2025-10-13 12:18

(來源:機器之心)

說出概念,SAM 3 就明白你在説什麼,並在所有出現的位置精確描繪出邊界。

Meta 的「分割一切」再上新?

9 月 12 日,一篇匿名論文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陸 ICLR 2026,引發網友廣泛關注。

  • 論文標題:SAM 3: Segment Anything with Concepts

  • 論文地址:https://openreview.net/forum?id=r35clVtGzw

大家紛紛猜測,這篇論文出自 Meta,畢竟文風和 Meta 以前發佈的論文非常相似。再加上 SAM 與 SAM 2 均由 Meta 推出,這讓外界幾乎可以確定,SAM 3 就是 Meta「Segment Anything」系列的正式續作。

在時間節點上,這篇論文的出現也幾乎完美契合 Meta 的節奏。SAM 1 於 2023 年 4 月發表,獲得當年 ICCV 最佳論文提名,其(零樣本)分割一切的概念讓研究者直呼「CV」不存在了,並且被譽為 CV 領域的「GPT-3 時刻」。

SAM 2 於 2024 年 7 月發表,在前身的基礎上為靜態圖像和動態視頻內容提供實時、可提示的對象分割,將圖像和視頻分割功能統一到一個強大的系統中。

而如今,又是一年過去了。SAM 3 的登場似乎恰逢其時。

那麼這次 SAM 3 有什麼新進展呢?

它被定義為一個更高級的任務:提示概念分割(Promptable Concept Segmentation, PCS)

即將文本和 / 或圖像範例作為輸入,為每一個與該概念匹配的對象預測實例掩碼和語義掩碼,同時在視頻幀之間保持對象身份的一致性。該工作的重點是識別原子視覺概念 (atomic visual concepts),因此將輸入文本限制為簡單的名詞短語,例如「紅蘋果」或「條紋貓」,只要描述你想要的東西,它就能在圖像或視頻中找到並分割出每一個對應實例

這意味着,分割終於學會了理解語言,但不是那種模糊的語義聯想,而是一種紮根於視覺的極簡理解方式。說出概念,它就明白你在説什麼,並在所有出現的位置精確描繪出邊界。

有的小夥伴可能記得,SAM 1 就有文本功能,這次又有什麼不同呢?

論文中明確指出,在 SAM 1 中,文本提示的功能「沒有被完全開發」(were not fully developed)。SAM 1 和 SAM 2 的實際重點在於視覺提示(如點、框、掩碼)。

它們未能解決一個更廣泛的任務:即找到並分割出輸入內容中(例如,一段視頻里所有的「貓」)出現的某一概念的所有實例。

簡單來説,SAM 3 讓用户從「手動一個個點出來」升級到了「告訴模型一個概念,它幫你全部找出來」。

SAM3 在兩方面均取得進步。在通過點擊進行可提示視覺分割方面(左圖),SAM3 的性能優於 SAM2;同時,它在可提示概念分割方面(右圖)也取得了進展,用户可以通過一個簡短的名詞短語、圖像範例或兩者的組合,來指定一個視覺概念並分割出其所有實例。

在論文提出的新基準 SA-Co 上,SAM 3 的性能比之前的系統提升了至少 2 倍 。在多個公開基準測試上取得了 SOTA 成績。例如,在 LVIS 數據集上,它的零樣本掩碼平均精度達到了 47.0,而之前的最佳紀錄是 38.5 。

同時,模型在單個 H200 GPU 上處理一張有超過 100 個物體的圖像僅需 30 毫秒 。

不過評論區也對該工作提出了質疑。有人指出,根據文本描述分割物體的想法並不新鮮,在學術界早已被稱為「指代分割」,並且已有相當多的研究。因此,有人認為這項工作只是將一箇舊概念「重新命名」和包裝。

還有評論認為,Meta 只是在「追趕」開源社區的步伐,因為社區早已通過組合不同的模型(例如,將檢測模型與 LLM API 結合)實現了類似的功能。

方法介紹

文中提到,SAM 3 是對 SAM 2 的擴展,其在圖像與視頻中實現了可提示分割(promptable segmentation)的重大突破。

與 SAM 2 相比,SAM 3 在可提示視覺分割(Promptable Visual Segmentation,PVS)上表現更優,併爲可提示概念分割(Promptable Concept Segmentation,PCS)設定了新的標準。

至於 PCS 任務以及 PVS 任務,簡單來説就是,SAM 3 接收概念提示(如簡單的名詞短語如黃色校車、圖像示例)或視覺提示(如點、框、掩碼)來定義需要進行時空分割的對象(可逐個分割)。

可以説,本文聚焦的重點是識別原子級視覺概念,如紅色蘋果(red apple)或條紋貓。如圖 1 所示,用户可通過簡短名詞短語、圖像示例或二者組合,分割指定視覺概念的所有實例。

不過 PCS 本身存在固有模糊性,許多概念具有多重釋義:例如小窗户這個短語就很有主觀性(多大算小?多大算大?)和邊界模糊(是否包含百葉窗?)。

針對這一問題,Meta 在數據收集、指標設計和模型訓練等多個階段對這些模糊性問題進行了系統化處理。與前代 SAM 版本一致,SAM 3 保持完全交互性,允許用户通過添加優化提示來消除歧義,引導模型生成預期輸出。

在模型架構上,SAM 3 採用雙編碼器 - 解碼器 Transformer 架構,這是一個具有圖像級識別能力的檢測器 —— 通過與跟蹤器和內存模塊相結合,可應用於視頻領域。檢測器和跟蹤器通過對齊的感知編碼器(PE)主干網絡接收視覺 - 語言輸入。

此外,該研究還構建了一個可擴展的人機協同數據引擎(如下圖),用於為大規模多樣化訓練數據集進行標註。基於這套系統,該研究成功標註了包含 400 萬獨特短語和 5200 萬掩碼的高質量訓練數據,以及包含 3800 萬短語和 14 億掩碼的合成數據集。

更進一步的,本文還創建了用於 PCS 任務的 Segment Anything with Concepts(SA-Co)基準測試,涵蓋 124K 張圖像和 1.7K 視頻中的 214K 獨特概念,其概念數量超過現有基準測試集 50 倍以上。

實驗

表 1 顯示:在零樣本設置下,SAM 3 在封閉詞匯數據集 COCO、COCO-O 和 LVIS 的邊界框檢測任務中具有競爭力,在 LVIS 掩碼任務上表現顯著更好。

在開放詞匯 SA-Co/Gold 數據集上,SAM 3 的 CGF 分數是最強基線 OWLv2 的兩倍,在其他 SA-Co 子集上的提升甚至更高。

在 ADE-847、PascalConcept-59 和 Cityscapes 上進行的開放詞匯語義分割實驗顯示,SAM 3 的表現超越了強大的專家型基線 APE。

小樣本自適應。SAM 3 在 10-shot 設置下實現了當前最優性能,超過了 Gemini 的上下文提示以及目標檢測專家模型(如 gDino)。

帶有 1 個樣本的 PCS。表 3 顯示在三種設置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表現均遠超之前最先進的 T-Rex2。

物體計數。結果如表 4 所示,與 MLLM 相比,SAM 3 不僅實現了良好的物體計數準確率,而且還提供了大多數 MLLM 無法提供的對象分割功能。

SAM 3 在文本提示下的視頻分割表現。結果顯示 SAM 3 的表現遠超基線,尤其是在包含大量名詞短語的基準測試中。

表 6 將 SAM 3 與 VOS(Video Object Segmentation) 任務上的先進方法進行了比較。SAM 3 在大多數基準測試中都比 SAM 2 取得了顯著的改進。對於交互式圖像分割任務,SAM 3 在平均 mIoU 方面優於 SAM 2。

瞭解更多內容,請參考原論文。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。