53萬美金訓練出頂級AI？揭祕MiniMax的「省錢」絕招

2025-06-20 08:06

這幾天，MiniMax 搞起了技術周，第一天就放出「王炸」，開源了全球首個大規模混合架構推理模型 MiniMax-M1。據最新消息，M1 已經成為全球前二的開源模型。

MiniMax 分別用最大生成長度的 40K 和 80K token，訓練了兩個版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在複雜的數學和編碼任務上優於 MiniMax-M1-40k。

據觀察，MiniMax-M1 在全球科技領域引起了強烈的反響。產品不僅迅速佔據海外主流媒體如 VentureBeat、Seekingalpha 等重要版面，更獲得 Aran Komatsuzaki 等行業 KOL 的深度解讀，同時在 TestTM 等國際社交平臺引發討論，形成多維度、跨圈層的傳播矩陣。

（全球科技領域大V評論截圖）

（VentureBeat 報道截圖）

而引發海外關注的原因，來自於 M1 的三個核心能力——長上下文窗口、RL 訓練成本上的優勢、Agent 工具調用。

M1 技術報告顯示，在業內主流的 17 個評測集上，M1 的性能表現超越了當前很多頭部模型。例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 驗證基準上分別取得 55.6% 和 56.0% 的優異成績。在長上下文理解任務中，全面超越所有開源權重模型。在代理工具使用場景（TAU-bench）中，MiniMax-M1-40k 同樣領跑所有開源權重模型，並戰勝 Gemini-2.5 Pro。

全球最長上下文，MiniMax-M1 是如何做到的？

MiniMax-M1 基於之前的 MiniMax-Text-01 模型開發，總共包含 4560 億個參數，459 億個激活函數，並具備 32 層架構，其最大的亮點是支持目前業內最高的 100 萬上下文的輸入。

從報告測評結果來看，MiniMax-M1 的上下文輸入長度達到 1M，與閉源模型中的 Google Gemini 2.5 Pro 持平，卻是 DeepSeek R1（128K）的 8 倍。

不僅如此，MiniMax-M1 的推理輸出可達 8 萬 Token，同樣位居業內之首。這使得 M1 特別適合解決需要處理長文本（比如代碼、論文）和複雜推理（比如數學題、軟件調試）的任務。

依託其百萬級上下文窗口，M1 系列在長上下文理解任務中表現卓越，其中在上下文能力的評測基準 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中，M1 的表現遠超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內的所有開源模型，甚至超越 OpenAI o3 和 Claude 4 Opus，僅以微弱差距落后於 Gemini 2.5 Pro。

目前，超長上下文在多個領域展現出了更多的實際應用價值。例如在文檔分析領域，百萬級上下文窗口能夠處理超長合同、科研文獻等複雜文檔，提升信息提取和理解的準確性；在代碼生成領域，百萬級上下文窗口能夠理解並修復整個代碼庫中的問題，甚至生成完整的長篇代碼。

以文檔分析寫作領域為例，過去，「寫一篇 10000 字的長文，詳細分析 XX 議題」這種看似簡單的要求，實際上有一些大模型做不到，而現在極有可能實現。

M1模型上下文能力的提升，得益於MiniMax獨創了Lightning Attention（閃電注意力）神經網絡架構，以及全新的強化學習算法CISPO（Clipped IS-weight Policy Optimization）。

當前，主流大語言模型的核心架構均以 Transfolmer 架構為基礎框架。然而，傳統 Transformer 架構在處理長序列時存在明顯弊端，其注意力機制的計算量會隨序列長度呈平方級增長，進而導致顯存佔用和計算成本急劇上升。

而 MiniMax 一直對非傳統 Transformer 路線十分感興趣，動作積極，並且實踐了「非主流」的線性注意力機制。

雙重創新，RL訓練成本降至53萬美金

MiniMax-M1 和 MiniMax-Text-01 系列，都是基於閃電注意力機制開發的。

其中，MiniMax-M1 中每 7 個帶有閃電注意力的 Transformer 模塊后會跟一個帶有 softmax 注意力的 Transformer 模塊。這種設計理論上可以將推理長度高效擴展到數十萬個，同時大幅降低成本。

從圖中可以看到，和 DeepSeek R1 相比，M1 在 64 個 token 的生成長度下，消耗的 FLOP 不到 50%，在 100K 個 token 長度下消耗 FLOP 約為 25%。

閃電注意力機制實則是線性注意力機制變體的 I/O 感知實現。

具體來看，傳統 Transformer 的 Softmax 注意力機制需要為輸入序列構建一個 N×N 的全連接矩陣，用以計算注意力權重，當處理超長序列時，這個矩陣會變得極其龐大，導致計算和存儲成本急劇增加。

閃電注意力機制等線性注意力機制採用「分塊計算」策略，將長序列分割成多個小塊，先在小塊內部計算詞與詞之間的關係，再通過塊間信息傳遞整合全局語義，這種方法顯著降低了計算複雜度，同時仍能捕捉到長距離的語義關聯。

這種模式下，計算複雜度不再是隨着序列長度的增加指數級上升，而是變成了和序列長度成線性關係，也就是説，序列變長時，計算量也只按比例增加，大大提高了處理效率。

它先確保了計算複雜度是線性的，在此基礎上，再結合輸入數據的稀疏性、結構等特性，以及輸出任務的具體需求，甚至還考慮了底層硬件的內存訪問效率，去對線性注意力的計算和實現方式進行設計或調整。這樣做的目的，就是在保持線性複雜度的同時，讓模型在特定任務或數據上能獲得更優表現，比如運行速度更快、內存佔用更少，或者能生成更相關的注意力分佈，從而提升整體效果。

換句話説，這本身就是一種更精細化、更貼合實際應用場景的優化思路。

正是這種獨特的架構設計，讓採用它的 M1 模型在處理那些非常長的序列數據時表現特別出色，能夠在保證處理效果（性能）的同時，也兼顧了計算速度（效率）。

但由此帶來的問題是，高速推理會加速強化學習（RL）的縮放進程，讓模型生成的響應越來越長，變得冗余。而且，傳統混合架構模型所使用的 RL 算法，在這種快速變化的環境下，很容易因為各種未知因素而變得不穩定，進而影響模型的整體表現和可靠性。

為此，MiniMax 用兩種方法來穩定提高 RL 的縮放效率。

首先是 RL 算法的創新。M1 技術報告中提到，在零 RL 設置下的混合架構的初步實驗中，GRPO 算法對訓練性能反而產生了不利影響，並且無法促進長 CoT 推理為的出現。

MiniMax 提出了一種新的強化學習算法 CISPO。CISPO 不直接裁剪 token，而是保留所有 token 的更新，修剪重要性採樣（importance sampling）權重來保持訓練的穩定性。

實驗顯示，在相同訓練步數下，CISPO 的性能優於 GRPO 和 DAPO，並且只用一半的訓練步數就能達到與 DAPO 相當的性能。

此外，MiniMax 還注意到，M1 的混合注意力機制的設計還會 RL 擴展的穩定性帶來挑戰。

例如，模型訓練架構的訓練內核和推理內核之間精度不匹配（如下圖左圖所示）。這導致訓練內核學到的策略可能無法在推理階段被準確執行，導致實際執行的動作與預期策略存在偏差。簡單來説，就像大腦（訓練內核）想好了最優方案，但手腳（推理內核）卻跟不上或執行不到位，自然難以取得好成績。

在一系列調整后，MiniMax-M1 將訓練概率和推理概率之間的相關性從 0.9 倍提升至 0.99 倍（如下圖右圖所示）。

上述一系列優化下，MiniMax 最終將 MiniMax-M1 整個強化訓練成本打下了一個數量級，只用 512 塊 H800，用時三周，租賃成本只有 53.74 萬美金。

從 Demo 到生產力，工具纔是 Agent 的終極「外掛」

無論是長上下文窗口，還是強化學習訓練成本上的優勢，本質都是為上層 Agent 應用提供底層支撐，加速規模化落地。

但真正決定 Agent 應用在複雜場景中用得好不好，更多取決於其能否與外部系統無縫協同。這也是為什麼越來越多的企業和開發者開始將工具使用（Tool Use）視作 Agent 最重要的能力。MiniMax-M1 能在海內外引起廣泛討論的一部分原因，也來自於此。

在代理工具使用場景（TAU-bench）中，MiniMax-M1-40k 領跑所有開源權重模型，在 30 多輪長鏈路思考與工具調用任務中，展現出極高的穩定性。

TAU-bench 被視為評估 Agent 工具使用能力的「黃金標準」，其由頂尖 AI 研究機構聯合推出，通過對 Agent 在航空、零售兩個垂直領域的場景評測，衡量 Agent 在複雜現實任務中，與用户和工具交互的能力。對於開發者、企業甚至是研究機構而言，TAU-bench 的評測結果都具有重要的參考價值。

穩定是工具能力的基礎，易用性則決定了工具能否被廣泛應用。這也是 MiniMax-M1 在工具調用方面，區別於傳統模型的關鍵。

在傳統方案中，開發者需要為每個 API 單獨設計 Prompt 模板、處理參數映射、調試上下文傳遞，這種方式不僅效率低，還嚴重依賴開發者個人經驗。MiniMax-M1 支持開發者以簡單的 XML 格式工具結構描述工具功能，模型能夠自動理解工具的輸入輸出、參數約束，並生成符合要求的調用代碼。開發者甚至不需要專門學習工具的使用方法，就能實現工具調用。

在實際的應用場景中，MiniMax-M1 在工具調用能力上的優勢得到了進一步放大。在 MiniMax-M1 的 Hugging Face 主頁上，專門設置了一個「代碼遊樂場」，用户可以通過這個交互式環境，快速且直觀地感受 MiniMax-M1 工具調用能力對開發效率的提升。

比如，MiniMax-M1 內置了很多 UI 組件。通過輸入提示詞，MiniMax-M1 能快速生成 3D 翻轉卡片動畫，也能立即創建一個具有粒子動畫背景的 HTML 頁面。

MiniMax-M1 還支持交互式應用程序。以打字速度測試工具為例，MiniMax-M1 能夠快速生成包含實時打字速度（以每分鍾字數 WPM 計算）的 Web 應用，整個過程不需要任何插件，也不需要做額外的設置。

此外，MiniMax-M1 還支持工具 & 編輯器、遊戲 & 可視化能力。比如，輸入提示詞：「創建一個迷宮生成器和路徑尋找可視化工具，隨機生成迷宮並用 A* 算法逐步可視化解法。使用 canvas 和動畫呈現，視覺效果炫酷。」MiniMax-M1 快速就能做出一個迷宮小遊戲，可玩性也相當不錯。

當 Agent 規模化應用已成定局，MiniMax-M1 開源更大的意義在於，給行業提供了一個新思路：RAG 等「外掛」或許能短期內提高 Agent 的落地效果，但長期來看，基座模型本身的持續進化，或許纔是解決 Agent 落地難題的「第一性原理」。

MiniMax 圍繞模型升級的重點之一，始終是上下文處理能力，迭代速度堪稱迅猛。年初，MiniMax 發佈並開源 MiniMax-01 系列模型，其中，MiniMax-Text-01 模型能夠高效處理多達 400 萬 token 的上下文，這一數據是 GPT-4o 的 32 倍，更是 Claude-3.5-Sonnet 的 20 倍。如今 MiniMax-M1 支持 100 萬上下文輸入，不難發現，MiniMax 在技術路線與戰略方向上，始終保持着連貫性與堅定性。

這是因為在 Agent 系統里，無論是單 Agent 實現長期記憶，還是多 Agent 達成協同通信，都高度依賴強大的上下文處理能力。另外，隨着 AI Agent 逐漸進入企業生產環境，來自各領域大量的上下文信息正在輸入，不確定性很高，支持的上下文長度越大，對業務的兼容性越好。

與市面上的基礎模型廠商不同，MiniMax 對技術的考量，是以業務為中心的，「技術摸高」是 MiniMax 的重要任務，但不是唯一任務。而隨着企業對 AI 的需求越來越貼合業務實際情況，MiniMax 這樣的廠商，無疑增強了企業對 AI 的信心。在本次 MiniMax-M1 開源后，我們完全可以期待 2025 下半年 AI 市場的增長曲線，將因此抵達新的高峰。

本文來自微信公眾號「InfoQ」（ID：infoqchina），作者：楊楠、凌敏，36氪經授權發佈。

53萬美金訓練出頂級AI？揭祕MiniMax的「省錢」絕招

全球最長上下文，MiniMax-M1 是如何做到的？

雙重創新，RL訓練成本降至53萬美金

從 Demo 到生產力，工具纔是 Agent 的終極「外掛」

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？