繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

老牌Transformer殺手在ICLR悄然更新:Mamba-3三大改進趨近設計完全體

2025-10-14 16:23

(來源:機器之心)

機器之心報道

編輯:冷貓

至今為止 Transformer 架構依然是 AI 模型的主流架構,自從其確立了統治地位后,號稱 Transformer 殺手的各類改進工作就沒有停止過。

在一眾挑戰者中最具影響力的自然是 2023 年社區爆火的基於結構化的狀態空間序列模型(SSM)架構的 Mamba。

Mamba 的爆火可能和名字有關,但硬實力確實強大。

在當時,Mamba 在語言建模方面可以媲美甚至擊敗 Transformer。而且,它可以隨上下文長度的增加實現線性擴展,其性能在實際數據中可提高到百萬 token 長度序列,並實現 5 倍的推理吞吐量提升。

在 Mamba 問世后,涌現出了超多在不同任務上使用 Mamba 的工作以及一些改進工作,誕生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte、MambaOut 等多項工作,被稱為「Transformer 最有力的繼任者」

在 2024 年,在 Mamba 發佈的半年后,Mamba-2 正式發佈,拿下了頂會 ICML 2024。核心層是對 Mamba 的選擇性 SSM 的改進,速度提高了 2-8 倍,同時在語言建模方面繼續與 Transformers 競爭。

但 Mamba-2 除了讓第一代 Mamba Out 之外,似乎沒能獲得現象級的關注。

就在最近,Mamba 的第三代迭代工作 Mamba-3 悄悄的出現在了 ICLR 2026,正在盲審環節。

  • 論文標題:Mamba-3: Improved Sequence Modeling Using State Space Principles

  • 論文鏈接:https://openreview.net/pdf?id=HwCvaJOiCj

Mamba-1 使用的是連續時間動態模型,並通過「選擇性記憶更新」機制來保留信息,在不依賴注意力機制的情況下實現了高效記憶。

Mamba-2 更進一步,提出狀態空間更新(SSM)與注意力機制在數學上是等價的兩種形式,從而在保持接近 Transformer 性能的同時,大幅提升了在 GPU 上的運行速度。

關於 Mamba-1 和 Mamba-2 的技術解析,請參考我們之前的報道

現在的 Mamba-3 給人的感覺是,這個架構終於成熟了。它不僅是注意力機制的替代方案,而是在狀態演化方式、記憶機制以及硬件並行利用方式上,完成了一次更全面、更統一的設計。

三大重要改進

Mamba-3 在三個關鍵領域相對於 Mamba-2 引入了重大改進:

梯形離散化(Trapezoidal Discretization)

研究團隊使用梯形法對底層的連續時間動力系統進行離散化。最終得到的遞推形式是 Mamba-2 遞推結構的一個更具表達力的超集,並且可以被視為一種卷積。

之前的狀態更新只考慮區間起點的信息,而現在會同時結合起點和終點。

研究團隊將這種新的離散化方式與作用於 B、C 的偏置項結合使用,發現這種組合在經驗上可以替代語言建模中的短因果卷積。

左圖: 廣義梯形積分法引出的結構化掩碼,是由衰減掩碼與卷積掩碼的乘積構成的;右圖: 歐拉方法(使用端點值保持不變)對比梯形積分法(取區間兩端點的平均值)

複數化狀態空間模型(Complexified State-Space Model)

通過將 Mamba-3 底層的狀態空間模型視為復值結構,研究團隊實現了相比 Mamba-2 更具表達力的狀態更新機制。

這種更新規則在設計上仍保持訓練和推理的輕量級特性,同時克服了當前許多線性模型在狀態追蹤能力上的不足。研究團隊指出,這種複數更新機制等價於一種數據依賴的旋轉位置編碼,因此可以高效計算。

多輸入多輸出狀態空間模型(MIMO SSM)

爲了提升解碼階段的 FLOP 利用效率,研究團隊將狀態更新方式從基於外積(outer-product)的形式轉換為基於矩陣乘法的形式。從 SSM 的信號處理基礎來看,這一轉變正對應於從單輸入單輸出(SISO)動態系統向多輸入多輸出(MIMO)動態系統的泛化。

Mamba-3 可以多通道同時更新狀態,極大提升 GPU 並行吞吐效率。

MIMO 形式尤其適合推理階段,因為其額外的表達能力允許在狀態更新中投入更多計算量,而無需增加狀態大小,從而不影響速度。

同時,研究團隊也對整體架構進行調整,使其更貼近基線 Transformer 架構。Mamba-3 用更常見的 QK-normalization 替換了輸出前投影歸一化機制,並將短卷積設為可選項。

對比 Mamba-2 與 Mamba-3 的架構升級

實證驗證

研究團隊在一系列合成任務和語言建模任務上對新模型進行實證驗證:

更好的質量(Better Quality)

在標準下游語言建模評測中,Mamba-3 的表現達到或超過 Mamba-2 及其他開源架構。例如,Mamba-3-1.5B 在所有下游任務上的平均準確率優於其 Transformer、Mamba-2 和 Gated DeltaNet 對應模型。

在使用 100B 規模的 FineWeb-Edu 語料訓練后,對各模型進行下游語言建模評測的結果。

在參數規模匹配的預訓練模型上進行下游語言建模評測結果,其中包含 Mamba-3 的 MIMO 版本。

更強的能力(Better Capability)

Mamba-3 對 SSM 狀態的複數化使模型能夠解決 Mamba-2 無法處理的合成狀態追蹤任務。

通過真實任務與合成任務混合評測檢索能力。真實檢索任務使用數據集的完形填空(cloze)變體,並截斷至 2K 長度。

Mamba-3 在關聯記憶與問答能力上表現出色,但在半結構化與非結構化數據的信息抽取方面存在不足。此外,Mamba-3 在「大海撈針」(NIAH)任務上具有很高的準確率,並能夠泛化到其訓練上下文之外的場景。

此外,研究團隊表示,基於 RoPE 的高效計算幾乎可以完美解決算術任務,而不帶 RoPE 的 Mamba-3 與 Mamba-2 的表現則接近隨機猜測。

更高的推理效率(Better Inference Efficiency)

Mamba-3 的 MIMO 變體在保持相同狀態規模的同時,提升了相較於標準 Mamba-3 及其他模型的硬件利用效率。在不增加內存需求的前提下實現性能提升,從而推動了推理效率的 Pareto 前沿。

延迟(單位:毫秒)在不同模型、精度設置以及 d_state 數值下的對比。在常用的 bf16、d_state = 128 配置下,Mamba-3 的 SISO 和 MIMO 版本都比 Mamba-2 和 Gated DeltaNet 更快。

探索 狀態大小(推理速度的代理指標) 與 預訓練困惑度(性能的代理指標) 之間的關係。Mamba-3 MIMO 在不增加狀態大小的前提下推動了 Pareto 前沿。

總結

Mamba-3 的高效長序列處理能力,使它非常適合應用於長文檔理解、科學時間序列、基因建模等場景 —— 這些領域正是 Transformer 因上下文受限而表現不佳的地方。

由於其線性時間推理且延迟穩定,它同樣非常適合用於實時交互場景,例如聊天助手、機器翻譯和語音接口,這些任務更看重響應速度而非模型規模。

此外,得益於其友好的硬件特性,Mamba-3 有潛力未來運行在本地設備或邊緣側,在無需依賴雲端的情況下執行大模型推理。

更多信息,請參閱原論文。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。