熱門資訊> 正文

小米萬億模型全面開源：MIT 協議、1M 上下文，但還是打不過 DeepSeek

2026-04-28 17:02

今天，小米開源了 MiMo-V2.5 和 MiMo-V2.5-Pro 兩款模型：MiMo-V2.5 基礎模型提供原生多模態能力，而 MiMo-V2.5-Pro 則是專門為「長周期一致性」和複雜軟件工程設計的。

小米採用了寬松、對企業友好的 MIT License，這意味着模型適合被用於商業應用的生產環境。用户可以按需修改模型，並根據自身需要，在本地或虛擬私有云上運行。

在 GDPVal-AA（Elo）基準測試中，Pro 模型取得了 1581 分，超過了 Kimi K2.6 和 GLM 5.1 等競爭對手。

小米還進一步公佈了 V2.5-Pro 自動完成若干高複雜度任務的數據：

用 Rust 實現 SysY 編譯器：模型從零開始實現了一個完整編譯器，包括 lexer、parser 和 RISC-V 匯編后端，用時 4.3 小時。整個過程橫跨 672 次工具調用，在隱藏測試集中取得了 233/233 的滿分。這個任務通常需要計算機科學專業學生花費數周時間完成。
全功能視頻編輯器：模型用時 11.5 小時，進行了 1868 次工具調用，最終生成了一個 8192 行的桌面應用，具備多軌時間線和導出流水線。
模擬 EDA 優化：在一項研究生級別的工程任務中，模型優化了 TSMC 180nm 工藝下的 Flipped-Voltage-Follower（FVF-LDO）穩壓器。通過不斷迭代 ngspice 仿真循環，模型將線性調整率等指標相較初始嘗試提升了 22 倍。

小米用這些實驗來凸顯 V2.5-Pro 的一種「harness awareness」，也就是「腳手架意識」。模型會主動管理自己的記憶，並塑造自身上下文，以便在數千次連續工具調用中維持一致性。

拼 token 效率，但 DeepSeek 價格依然最能打

根據小米公佈的基準測試，這些模型被認為是目前適合 agentic 「claw」任務的高效模型之一。

所謂「claw」任務，指的是為 OpenClaw、NanoClaw、Hermes Agent 這類系統提供支持。用户可以通過第三方消息應用直接與這些智能體溝通，讓它們代替人類用户去完成任務，比如製作和發佈營銷內容、運營賬號、整理郵件、安排日程等等。

隨着 OpenClaw 等被廣泛應用，token 消耗量也迅速爆發，越來越多服務開始轉向按使用量計費。這時，「為用户省錢」這一點變得非常關鍵。

微軟的 GitHub Copilot 今天宣佈正在轉向基於用量的計費方式，也就是按照人類用户實際消耗的每個 token 收費，而不是像 Anthropic 那樣施加速率限制，或者像 OpenAI 那樣提供「自助餐式」的無限量訂閲。這讓更多人意識到，AI 推理補貼時代結束了。

過去大家一個月用 20 美元、100 美元、200 美元就能跑大量 Claude、OpenAI 高端模型完成工作，本就不可能長期持續。有用户直言，這很像 ZIRP 時代互聯網公司的增長策略：先燒錢補貼、快速獲客，等用户習慣和粘性形成后，再開始正式變現。

而對於用户來説，現在編程成本從固定訂閲變成不確定的 token 消耗，這個賬可能越來越難算。 Agent 編程不是普通聊天，真實成本來自長上下文、反覆工具調用、緩存命中率和模型倍率等。

這個背景下，小米為這些模型提供了相當有競爭力的價格，覆蓋國內和國際市場。

對海外開發者來説，高性能的 MiMo-V2.5-Pro 在最高 256K 上下文窗口內，緩存未命中時每百萬輸入 token 價格為 1.00 美元，輸出價格為 3.00 美元。對於 256K 到 1M token 之間的超長上下文任務，價格會翻倍：輸入為 2.00 美元，輸出為 6.00 美元。

單純模型定價角度看，國內模型橫向比較時，MiMo 價格並不便宜。

部分模型海內外價格不完全統計，來源：AI 前線

不過，實際的整體使用價格還是要結合 token 效率來看。Artificial Analysis 之前的測評顯示，在同一套 Intelligence Index 評測中，不同模型的 token 消耗差異巨大。DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型動輒消耗 2 億級輸出 token，且大部分是推理 token；而 MiMo-V2.5-Pro 約為 9200 萬，GPT-5.5 xhigh 約為 7500 萬，Gemini 3.1 Pro Preview 甚至只有 5700 萬。

而從小米發佈的 ClawEval 基準測試圖也可以看到，MiMo-V2.5 和尤其是 Pro 版本，在完成基準測試中的 claw 任務時表現很強，同時消耗的 token 又最少。

根據測試，在 ClawEval 上，V2.5-Pro 以每條軌跡約 7 萬 token 的消耗，取得了 64% 的 Pass^3 成績。而在能力水平相近的情況下，這比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 少用了大約 40% 到 60% 的 token。

「MiMo V2.5 Pro 有一點很不錯：它似乎是目前 token 效率最高的開源模型。它會思考，但不會總是陷入那種很長的「等等，好像不對」的循環。很喜歡這一點。」有網友評價道。

「更高的智能，並不只是拿到更高的分數。它還意味着，用更少的 token 達到同樣的能力水平。」官方表示。值得注意的是，小米大模型負責人羅福莉就曾直言大模型公司「價格戰是陷阱」。

她認為，如果用户把精力浪費在低質量的 Agent 框架、極不穩定且緩慢的推理服務、以及為降本而被迫降級的模型上，最終發現自己仍然什麼都做不成，這對用户體驗和留存率來説，就是一個惡性循環。而真正的出路不是更便宜的 token，而是協同進化，即「更高 token 效率的 Agent 框架」疊加「更強大高效的模型」。

不過，小米當前模型定價依然處於較低位置。小米所有模型現在還限時免收緩存寫入費用，同時整個 MiMo-V2.5-TTS 套件也完全免除費用，其中包括專門的語音克隆和語音設計功能。這種定價邏輯顯然是爲了加速從簡單聊天應用，轉向持久、長周期智能體的過程，后者可以以傳統前沿模型小部分的成本運行。

此外，小米還推出了重新設計后的「Token Plan」，目前分為四檔：

Lite 「Starter Pack」提供 7.2 億 credits，年費 63.36 美元。
Standard 檔提供 24 億 credits，年費 168.96 美元。
Pro 檔提供 84 億 credits，年費 528.00 美元，面向企業使用場景。
Max 檔面向高強度編碼愛好者，提供 192 億 credits，年費 1056.00 美元。

除了 credit 配額外，所有套餐還包括更優惠的 API 價格、離峰調用 20% 折扣，以及對 Cursor、Zed、Claude Code 等熱門編碼工具的「Day-0」支持。

此外，開源的同時，羅福莉宣佈提供 100 萬億免費 token，目前已經有用户曬出入選郵件。

網友評價

當前看，小米模型獲得了一些不錯的評價。

「這個模型太棒了，是我目前最喜歡的，比我使用的 Kimi 2.6 和 GLM 都好。」網友「Someone1Somewhere1」表示。

該開發者介紹，自己在工作和個人愛好上都會用到它們。「工作方面主要是做數據分析、整理用於演示文稿的數據，包括字體排版，以及在大量給定數據中查找一些小眾信息。我個人愛好遊戲開發。這方面包括用 Python 寫代碼、處理一些複雜數學問題、進行創意寫作，分析我自己寫下的大量概念、技能設定和主題，然后幫我根據特定素材進一步組織和打磨，比如宗教禮儀、古代神話、民間傳説、creepypasta 這類內容。」

不過，有用户指出評價是「絕對不算出色」，MiMo-V2.5 Pro 思考時間太長了。

還有開發者表示，「DeepSeek 也有它的用途，但它並不能滿足我的需求。我用 Mimo 進行構思、研究、假設檢驗，以及梳理要開發的內容和整體思路。然后，在實現階段，我使用 GLM 和 Kimi。Mimo 非常擅長實施前的溝通，集思廣益並對想法進行壓力測試。」

都是 MoE 架構，但訓練路線不同

MiMo-V2.5 的核心稀疏專家混合架構，總參數規模達到 310B，激活參數 15B。

V2.5 被訓練來做跨模態推理，通過平衡局部注意力和全局注意力來維持多模態感知能力。

根據小米博客文章，MiMo-V2.5 遵循了嚴格的五階段演進路線：

文本預訓練，基於 48 萬億 token 構建龐大的語言主干；
Projector Warmup，將自研音頻和視覺編碼器與語言核心對齊；
多模態預訓練，在高質量跨模態數據上進行規模化訓練；
Agentic 后訓練，逐步將上下文窗口從 32K 擴展到 1M token；
RL 和 MOPD：使用強化學習和多模態偏好優化來提升真實世界推理和感知能力。

V2.5-Pro 則是一個總參數規模為 1.02 T 的 MoE 模型，活躍參數為 42B。它採用了 MiMo-V2-Flash 中引入的混合注意力架構和 3 層多 Token 預測（MTP）設計，支持最高 100 萬 token 的上下文長度。

V2.5-Pro 採用混合注意力架構，局部滑動窗口注意力和全局注意力以 6:1 的比例交錯排列，窗口大小為 128 個 token。

這種設計可以在通過可學習的 attention sink bias 維持長上下文性能的同時，將 KV-cache 存儲量減少近 7 倍。V2.5-Pro 可以「快速掃過」絕大部分上下文，同時對當前目標最相關的 15% 數據施加高密度注意力。對於調試大型代碼倉庫等任務來説，這是一個關鍵特性。

不過，與同樣使用混合注意力機制的 DeepSeek-V4 比，V2.5-Pro 更接近主流推理框架可部署方案，架構創新相對更工程化，attention 壓縮不如 DeepSeek 激進。DeepSeek-V4 更偏自研系統棧和底層 kernel 優化，系統複雜度高、部署門檻可能更高。

MTP 方面，V2.5-Pro 還配備三個使用 dense FFN 的輕量級 MTP 模塊。這使得推理階段的輸出速度提升至約 3 倍，同時也有利於加速強化學習訓練中的 rollout。

MiMo-V2.5-Pro 使用 27T tokens 進行訓練，採用 FP8 混合精度和原生 32K 序列長度，上下文窗口最高支持 100 萬 tokens。其訓練重點不再是感官對齊，而是轉向擴展后訓練計算量。這一過程旨在注入「harness awareness」，即「腳手架意識」。模型會被專門訓練，以便在 Claude Code 或 OpenCode 這類自主智能體腳手架中，管理自己的記憶和上下文。

最后，雖然兩款模型都會經歷強化學習（RL）和多模態偏好優化（MOPD），但這些階段的目標不同：

對於 MiMo-V2.5，RL 階段用於加強感知能力和多模態推理能力。

對於 MiMo-V2.5-Pro，RL 更聚焦於 agentic 場景中的指令遵循，確保模型能夠遵守深藏在超長上下文中的細微要求，並在自主執行過程中從錯誤中優雅恢復。這帶來了 Pro 模型的「自我糾錯」紀律性。

在實際體驗中，有用户指出，同樣是一份數據處理腳本的審查，有一處不會報錯的隱祕 bug，兩個模型都查不出來，但是 GPT 和 Claude 都能夠穩定地發現它。不過 DeepSeek v4 Pro 告訴它檢查哪個部分后，它能夠發現問題，MIMO V2.5 Pro 做不到，需要明確的錯誤反饋。

「我感覺 MIMO 的這個模型推理預算被限制很厲害，又或者可能沒有做過太多長鏈推理的訓練。沒有明確的錯誤反饋，靠它自己憑空思考表現不太好。」該用户指出。

此外還有用户提到，在免費期過后，小米模型使用佔比一直在下降，加上近期羅福莉露出頻繁，「現在小米公司做的一切，感覺就是爲了營銷它的產品，它的 Token。」

參考鏈接：

https://mimo.xiaomi.com/mimo-v2-5-pro

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro

https://venturebeat.com/ai/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

本文來自微信公眾號「AI前線」，整理：褚杏娟，36氪經授權發佈。

小米萬億模型全面開源：MIT 協議、1M 上下文，但還是打不過 DeepSeek

拼 token 效率，但 DeepSeek 價格依然最能打

網友評價

都是 MoE 架構，但訓練路線不同

推薦文章

英偉達期權鏈暗示財報后股價大幅波動？市場押注3500億美元市值巨震！

新股申購 | 「3D打印公司」創想三維今起招股！一手入場費2848.44港元

華盛早報 | 特朗普稱將很快結束對伊戰爭！30年美債收益率升至近20年來最高水平；英偉達今日盤后放榜

5月20日外盤頭條：特朗普再發威脅 谷歌升級搜索 大幅下調訂閲價格 北約開始考慮護航船霍爾木茲海峽

美股機會日報 | 重磅信號！中美敲定AI政府間對話；三大期指盤前悉數走低；谷歌開發者大會將於次日凌晨1點開幕

一圖看懂 | 嗶哩嗶哩Q1營收74.7億元略超預期，經調整淨利同比大增62%；月活用户突破3.76億，用户時長再創新高

華盛早報 | 特朗普「急剎車」推迟對伊攻擊！暗示重回談判桌；大摩稱債市拋售潮或衝擊美股漲勢；韓國法院要求三星罷工不得影響產量

谷歌持倉驟增超200%！時隔六年后「買回」達美航空，伯克希爾這一次的作業能抄嗎？

5月20日外盤頭條：特朗普再發威脅谷歌升級搜索大幅下調訂閲價格北約開始考慮護航船霍爾木茲海峽