繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

53萬美金訓練出頂級AI?揭祕MiniMax的「省錢」絕招

2025-06-20 08:06

這幾天,MiniMax 搞起了技術周,第一天就放出「王炸」,開源了全球首個大規模混合架構推理模型 MiniMax-M1。據最新消息,M1 已經成為全球前二的開源模型。

MiniMax 分別用最大生成長度的 40K 和 80K token,訓練了兩個版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在複雜的數學和編碼任務上優於 MiniMax-M1-40k。

據觀察,MiniMax-M1 在全球科技領域引起了強烈的反響。產品不僅迅速佔據海外主流媒體如 VentureBeat、Seekingalpha 等重要版面,更獲得 Aran Komatsuzaki 等行業 KOL 的深度解讀,同時在 TestTM 等國際社交平臺引發討論,形成多維度、跨圈層的傳播矩陣。

(全球科技領域大V評論截圖)

(VentureBeat 報道截圖)

而引發海外關注的原因,來自於 M1 的三個核心能力——長上下文窗口、RL 訓練成本上的優勢、Agent 工具調用

M1 技術報告顯示,在業內主流的 17 個評測集上,M1 的性能表現超越了當前很多頭部模型。例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 驗證基準上分別取得 55.6% 和 56.0% 的優異成績。在長上下文理解任務中,全面超越所有開源權重模型。在代理工具使用場景(TAU-bench)中,MiniMax-M1-40k 同樣領跑所有開源權重模型,並戰勝 Gemini-2.5 Pro。

全球最長上下文,MiniMax-M1 是如何做到的?

MiniMax-M1 基於之前的 MiniMax-Text-01 模型開發,總共包含 4560 億個參數,459 億個激活函數,並具備 32 層架構,其最大的亮點是支持目前業內最高的 100 萬上下文的輸入。

從報告測評結果來看,MiniMax-M1 的上下文輸入長度達到 1M,與閉源模型中的 Google Gemini 2.5 Pro 持平,卻是 DeepSeek R1(128K)的 8 倍。

不僅如此,MiniMax-M1 的推理輸出可達 8 萬 Token,同樣位居業內之首。這使得 M1 特別適合解決需要處理長文本(比如代碼、論文)和複雜推理(比如數學題、軟件調試)的任務。

依託其百萬級上下文窗口,M1 系列在長上下文理解任務中表現卓越,其中在上下文能力的評測基準 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表現遠超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內的所有開源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,僅以微弱差距落后於 Gemini 2.5 Pro。

目前,超長上下文在多個領域展現出了更多的實際應用價值。例如在文檔分析領域,百萬級上下文窗口能夠處理超長合同、科研文獻等複雜文檔,提升信息提取和理解的準確性;在代碼生成領域,百萬級上下文窗口能夠理解並修復整個代碼庫中的問題,甚至生成完整的長篇代碼。

以文檔分析寫作領域為例,過去,「寫一篇 10000 字的長文,詳細分析 XX 議題」這種看似簡單的要求,實際上有一些大模型做不到,而現在極有可能實現。

M1模型上下文能力的提升,得益於MiniMax獨創了Lightning Attention(閃電注意力)神經網絡架構,以及全新的強化學習算法CISPO(Clipped IS-weight Policy Optimization)。

當前,主流大語言模型的核心架構均以 Transfolmer 架構為基礎框架。然而,傳統 Transformer 架構在處理長序列時存在明顯弊端,其注意力機制的計算量會隨序列長度呈平方級增長,進而導致顯存佔用和計算成本急劇上升。

而 MiniMax 一直對非傳統 Transformer 路線十分感興趣,動作積極,並且實踐了「非主流」的線性注意力機制。

雙重創新,RL訓練成本降至53萬美金

MiniMax-M1 和 MiniMax-Text-01 系列,都是基於閃電注意力機制開發的。

其中,MiniMax-M1 中每 7 個帶有閃電注意力的 Transformer 模塊后會跟一個帶有 softmax 注意力的 Transformer 模塊。這種設計理論上可以將推理長度高效擴展到數十萬個,同時大幅降低成本。

從圖中可以看到,和 DeepSeek R1 相比,M1 在 64 個 token 的生成長度下,消耗的 FLOP 不到 50%,在 100K 個 token 長度下消耗 FLOP 約為 25%。

閃電注意力機制實則是線性注意力機制變體的 I/O 感知實現。

具體來看,傳統 Transformer 的 Softmax 注意力機制需要為輸入序列構建一個 N×N 的全連接矩陣,用以計算注意力權重,當處理超長序列時,這個矩陣會變得極其龐大,導致計算和存儲成本急劇增加。

閃電注意力機制等線性注意力機制採用「分塊計算」策略,將長序列分割成多個小塊,先在小塊內部計算詞與詞之間的關係,再通過塊間信息傳遞整合全局語義,這種方法顯著降低了計算複雜度,同時仍能捕捉到長距離的語義關聯。

這種模式下,計算複雜度不再是隨着序列長度的增加指數級上升,而是變成了和序列長度成線性關係,也就是説,序列變長時,計算量也只按比例增加,大大提高了處理效率。

它先確保了計算複雜度是線性的,在此基礎上,再結合輸入數據的稀疏性、結構等特性,以及輸出任務的具體需求,甚至還考慮了底層硬件的內存訪問效率,去對線性注意力的計算和實現方式進行設計或調整。這樣做的目的,就是在保持線性複雜度的同時,讓模型在特定任務或數據上能獲得更優表現,比如運行速度更快、內存佔用更少,或者能生成更相關的注意力分佈,從而提升整體效果。

換句話説,這本身就是一種更精細化、更貼合實際應用場景的優化思路。

正是這種獨特的架構設計,讓採用它的 M1 模型在處理那些非常長的序列數據時表現特別出色,能夠在保證處理效果(性能)的同時,也兼顧了計算速度(效率)。

但由此帶來的問題是,高速推理會加速強化學習(RL)的縮放進程,讓模型生成的響應越來越長,變得冗余。而且,傳統混合架構模型所使用的 RL 算法,在這種快速變化的環境下,很容易因為各種未知因素而變得不穩定,進而影響模型的整體表現和可靠性。

為此,MiniMax 用兩種方法來穩定提高 RL 的縮放效率。

首先是 RL 算法的創新。M1 技術報告中提到,在零 RL 設置下的混合架構的初步實驗中,GRPO 算法對訓練性能反而產生了不利影響,並且無法促進長 CoT 推理為的出現。

MiniMax 提出了一種新的強化學習算法 CISPO。CISPO 不直接裁剪 token,而是保留所有 token 的更新,修剪重要性採樣(importance sampling)權重來保持訓練的穩定性。

實驗顯示,在相同訓練步數下,CISPO 的性能優於 GRPO 和 DAPO,並且只用一半的訓練步數就能達到與 DAPO 相當的性能。

此外,MiniMax 還注意到,M1 的混合注意力機制的設計還會 RL 擴展的穩定性帶來挑戰。

例如,模型訓練架構的訓練內核和推理內核之間精度不匹配(如下圖左圖所示)。這導致訓練內核學到的策略可能無法在推理階段被準確執行,導致實際執行的動作與預期策略存在偏差。簡單來説,就像大腦(訓練內核)想好了最優方案,但手腳(推理內核)卻跟不上或執行不到位,自然難以取得好成績。

在一系列調整后,MiniMax-M1 將訓練概率和推理概率之間的相關性從 0.9 倍提升至 0.99 倍(如下圖右圖所示)。

上述一系列優化下,MiniMax 最終將 MiniMax-M1 整個強化訓練成本打下了一個數量級,只用 512 塊 H800,用時三周,租賃成本只有 53.74 萬美金。

從 Demo 到生產力,工具纔是 Agent 的終極「外掛」

無論是長上下文窗口,還是強化學習訓練成本上的優勢,本質都是為上層 Agent 應用提供底層支撐,加速規模化落地。

但真正決定 Agent 應用在複雜場景中用得好不好,更多取決於其能否與外部系統無縫協同。這也是為什麼越來越多的企業和開發者開始將 工具使用(Tool Use) 視作 Agent 最重要的能力。MiniMax-M1 能在海內外引起廣泛討論的一部分原因,也來自於此。

在代理工具使用場景(TAU-bench)中,MiniMax-M1-40k 領跑所有開源權重模型,在 30 多輪長鏈路思考與工具調用任務中,展現出極高的穩定性。

TAU-bench 被視為評估 Agent 工具使用能力的「黃金標準」,其由頂尖 AI 研究機構聯合推出,通過對 Agent 在航空、零售兩個垂直領域的場景評測,衡量 Agent 在複雜現實任務中,與用户和工具交互的能力。對於開發者、企業甚至是研究機構而言,TAU-bench 的評測結果都具有重要的參考價值。

穩定是工具能力的基礎,易用性則決定了工具能否被廣泛應用。這也是 MiniMax-M1 在工具調用方面,區別於傳統模型的關鍵。

在傳統方案中,開發者需要為每個 API 單獨設計 Prompt 模板、處理參數映射、調試上下文傳遞,這種方式不僅效率低,還嚴重依賴開發者個人經驗。MiniMax-M1 支持開發者以簡單的 XML 格式工具結構描述工具功能,模型能夠自動理解工具的輸入輸出、參數約束,並生成符合要求的調用代碼。開發者甚至不需要專門學習工具的使用方法,就能實現工具調用。

在實際的應用場景中,MiniMax-M1 在工具調用能力上的優勢得到了進一步放大。在 MiniMax-M1 的 Hugging Face 主頁上,專門設置了一個「代碼遊樂場」,用户可以通過這個交互式環境,快速且直觀地感受 MiniMax-M1 工具調用能力對開發效率的提升。

比如,MiniMax-M1 內置了很多 UI 組件。通過輸入提示詞,MiniMax-M1 能快速生成 3D 翻轉卡片動畫,也能立即創建一個具有粒子動畫背景的 HTML 頁面。

MiniMax-M1 還支持交互式應用程序。以打字速度測試工具為例,MiniMax-M1 能夠快速生成包含實時打字速度(以每分鍾字數 WPM 計算)的 Web 應用,整個過程不需要任何插件,也不需要做額外的設置。

此外,MiniMax-M1 還支持工具 & 編輯器、遊戲 & 可視化能力。比如,輸入提示詞:「創建一個迷宮生成器和路徑尋找可視化工具,隨機生成迷宮並用 A* 算法逐步可視化解法。使用 canvas 和動畫呈現,視覺效果炫酷。」MiniMax-M1 快速就能做出一個迷宮小遊戲,可玩性也相當不錯。

當 Agent 規模化應用已成定局,MiniMax-M1 開源更大的意義在於,給行業提供了一個新思路:RAG 等「外掛」或許能短期內提高 Agent 的落地效果,但長期來看,基座模型本身的持續進化,或許纔是解決 Agent 落地難題的「第一性原理」。

MiniMax 圍繞模型升級的重點之一,始終是上下文處理能力,迭代速度堪稱迅猛。年初,MiniMax 發佈並開源 MiniMax-01 系列模型,其中,MiniMax-Text-01 模型能夠高效處理多達 400 萬 token 的上下文,這一數據是 GPT-4o 的 32 倍,更是 Claude-3.5-Sonnet 的 20 倍。如今 MiniMax-M1 支持 100 萬上下文輸入,不難發現,MiniMax 在技術路線與戰略方向上,始終保持着連貫性與堅定性。

這是因為在 Agent 系統里,無論是單 Agent 實現長期記憶,還是多 Agent 達成協同通信,都高度依賴強大的上下文處理能力。另外,隨着 AI Agent 逐漸進入企業生產環境,來自各領域大量的上下文信息正在輸入,不確定性很高,支持的上下文長度越大,對業務的兼容性越好。

與市面上的基礎模型廠商不同,MiniMax 對技術的考量,是以業務為中心的,「技術摸高」是 MiniMax 的重要任務,但不是唯一任務。而隨着企業對 AI 的需求越來越貼合業務實際情況,MiniMax 這樣的廠商,無疑增強了企業對 AI 的信心。在本次 MiniMax-M1 開源后,我們完全可以期待 2025 下半年 AI 市場的增長曲線,將因此抵達新的高峰。

本文來自微信公眾號「InfoQ」(ID:infoqchina),作者:楊楠、凌敏,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。