熱門資訊> 正文
2025-10-28 10:08
開源模型王座再次易主,依舊是國產模型!
不過之前霸榜的DeepSeek和Qwen來自杭州,現在變成上海的Minimax了。
在第三方評測機構Artificial Analysis的測試中,Minimax M2以61分獲得了開源模型第一,緊隨Claude 4.5 Sonnet。
官方介紹,Minimax M2專為智能體和編程而生,編程能力和Agent表現出眾。
而且經濟高效,推理速度是Claude 3.5 Sonnet的兩倍,API價格卻只有8%。
Minimax表示,智能水平、速度和成本在過去被視為「不可能三角」,但隨着M2的出世,這個三角被打破了。
目前,M2的完整模型權重已經開源,採用MIT協議,在線Agent平臺和API也限時免費。
Minmax M2是一個稀疏度較高的MoE模型,總參數量230B,激活參數量僅有10B。
網友表示10B的激活參數運行起來會非常快,如果配上Cerebras或者Groq這樣的推理加速平臺,有望跑到每秒上千Token。
另一個特色是採用了交錯的思維格式,使得模型能夠規劃和驗證跨多個對話的操作步驟,這對於Agent推理至關重要。
如開頭介紹,Minimax官方將M2定義為一個專為智能體和編程而生的模型。
它專為端到端開發工作流程而構建,而且表現出對複雜、長鏈工具調用任務的出色規劃和穩定執行能力,支持Shell、瀏覽器、Python代碼解釋器和各種MCP工具的調用。
在Agent最關鍵的三個能力——編程能力、工具使用能力和深度搜索能力上,M2在工具使用和深度搜索方面上都不遜於海外頂尖模型,編程能力也在國內名列前茅。
綜合表現上,M2在Artificial Analysis的測試中,獲得了總排名第五、開源第一的成績。
該測試使用了10個熱門數據集,包括MMLU Pro、GPQA Diamond、人類最后測試、LiveCodeBench等。
而M2的定價是0.3美元/2.1人民幣每百萬輸入Token,1.2美元/8.4人民幣每百萬輸出Token,只要Claude 3.5 Sonnet的8%。
以Artificial Analysis的成績為基準,Minimax繪製了一張圖來比較各大模型性價比(橫軸越向右成本越低)。
在線推理服務的速度則可達每秒100Token,Minimax也畫了一張圖體現以速度衡量的性價比。
同時,Minimax團隊還針對智能體、全站開發和Terminal Use三項任務對M2和其他模型進行了一對一比拼。
結果M2相比於Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均有極高的Win+Tie比例,同時成本非常低廉。
爲了更直觀地體現M2的Agent能力,Minimax已經把M2部署到了Agent平臺,限時免費使用,按官方説法,免費期直到服務器扛不住為止。
同時在該平臺上,也展示了許多Minimax Agent的現成作品。
利用Minimax的Agent平臺,可以寫出各式各樣的網頁或在線應用。
當然像很多經典遊戲,也都能用它在Web環境當中復刻並直接部署。
甚至有網友創作的在線五子棋遊戲平臺,不僅有遊戲本體,還引入了在線對戰、觀戰、在線聊天,甚至是用户註冊等功能。
除了編程,也可以生成各種主題的調研報告或者PPT。
在X上,也有網友展示了自己用M2 Agent編程的實戰成果,僅通過三輪反饋就完成了一個足球小遊戲的製作。
可以説效果非常不錯。
模型表現之外,M2使用的注意力機制,也引發了網友們的討論。
有網友從vllm的代碼當中看出了M2的更多技術細節,表示M2採用類似GPT-OSS的全注意力和滑動窗口注意力(SWA)的混合機制,
不過Minimax NLP負責人指正,表示一開始確實想在預訓練階段引入SWA,但發現會造成性能損失,所以最后使用的是全注意力。
Falcon團隊的技術人員看了之后表示,他們在訓練模型的時候也發現了同樣的現象,SWA混合注意力會降低模型性能,這和一些論文的研究不符。
在部分論文和實踐中,SWA在提升效率的同時可以保持性能,如Mistral和谷歌Gemma模型的相關研究均支持此觀點。
但Minimax的實際測試顯示其在長程依賴任務上存在侷限。
同時,M2也沒有采用Lightning Attention(線性注意力的一種變體),原因也是因為性能損失。
同樣與之相反,有論文主張線性注意力在長序列任務中更具優勢。
到底哪種路線更優,可能還是要看具體需求,但至少從M2的表現上看,Minimax選擇的的確是一種適合自己的方式。
Agent平臺:https://agent.minimax.ioHugging
Face:https://huggingface.co/MiniMaxAI/MiniMax-M2
參考鏈接:
[1]https://www.minimax.io/news/minimax-m2
[2]https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool
[3]https://x.com/jessi_cata/status/1982936050256490968[4]https://x.com/JingweiZuo/status/1982822979030692356
本文來自微信公眾號「量子位」,作者:克雷西,36氪經授權發佈。