繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

我,被羅福莉打臉了

2026-04-24 09:42

壞了,我寫的文章被羅福莉打臉了,結結實實。

事情是這樣的,小米發佈MiMo-V2-Pro的時候,我曾寫過一篇文章,叫《在大模型這件事上,雷軍居然給馬斯克打樣了》,在該文的最后一部分對小米提出質疑。

我説「MiMo-V2-Pro只公佈了SWE-bench Verified這個公認有水分的評分結果,卻沒有公佈SWE-bench Pro這個真正抗污染的測試成績。」

結果小米在V2.5-Pro的宣傳中,直接把SWE-bench Pro放在了宣傳榜第一的位置,還特地在OpenRouter的模型描述中標註「top rankings on benchmarks such as ClawEval,GDPVal,and SWE-bench Pro」。

從結果來看,MiMo-V2.5-Pro的成績,已經和Claude Opus 4.6以及GPT-5.4這兩個全球最頂尖的模型相當。

雖然對於一般人來説,被打臉是一件很難堪的事情,但我不一樣,我覺得這是好事,因此我也樂意被打臉。

我被打臉,説明小米的模型進步了,性能更好了。

MiMo-V2-Pro的發佈時間是3月下旬,相當於小米只用了1個月的時間,就開發出了下一代的模型。

至少在態度上,小米已經不再回避更「硬核」的測試集了。

那麼小米這次的新模型V2.5和V2.5-Pro到底如何呢?

01 把agent能力當產品中心

小米這次最值得看的,是把它「Agent能力、長上下文、多模態、token效率、第三方框架適配」打包到了同一代產品里,榜單成績反倒不是重點。

MiMo的這次新模型發佈,整體敍事非常「工程化」,反覆都在講harness和Claude Code以及OpenClaw這類開發者工作流語境,基本上除了開頭那張圖以外,就沒怎麼再提過模型性能。

這事本身就非常小米。

MiMo-V2.5-Pro的重點是「長程agent」,聊天只是附帶功能。它在合適harness下可以持續完成超過1000次工具調用的長任務。

小米給了三個很複雜的demo。

第一個是4.3小時、672次工具調用完整寫出SysY編譯器。

這個任務來自北京大學編譯原理課程項目,要求從零實現一個完整的SysY編譯器,包含詞法分析器、語法分析器、抽象語法樹、Koopa IR代碼生成、RISC-V匯編后端,以及性能優化。

參考項目通常需要北大計算機專業學生花費數周時間。MiMo-V2.5-Pro在隱藏測試集上拿到了233/233的滿分。

模型一層一層地構建編譯器,沒有反覆試錯。先搭建完整管道,完善Koopa IR部分拿到110/110,然后是RISC-V后端103/103,最后是性能優化20/20。

第一次編譯就通過了137/233個測試,59% 的冷啟動通過率説明架構在運行任何測試之前就已經設計正確。在第512輪時,一次重構導致lv9/riscv退步了兩個測試,模型診斷出問題,恢復,然后繼續執行任務。

長程工作需要的正是這種結構化、自我糾錯的能力。

第二個是11.5小時、1868次工具調用做出可用的視頻編輯器桌面應用。

只需要幾個簡單的提示,MiMo-V2.5-Pro就交付了一個完整的桌面應用。最終構建的代碼有8192行。

第三個是接入ngspice仿真閉環做模擬電路FVF-LDO設計優化。

這是一個研究生級別的模擬電路EDA任務,在TSMC 180nm CMOS工藝下從零設計和優化一個完整的FVF-LDO(翻轉電壓跟隨器低壓差穩壓器)。

模型需要確定功率晶體管尺寸、調整補償網絡、選擇偏置電壓,使6個指標同時滿足規格要求,包括相位裕度、線性調整率、負載調整率、靜態電流、PSRR和瞬態響應。一個訓練有素的模擬設計師通常需要花幾天時間完成這個規模的項目。

小米把MiMo-V2.5-Pro接入ngspice仿真循環,使用Claude Code作為harness。

在大約1小時的閉環迭代中,模型反覆調用模擬器、讀取波形、調整參數,最終產生了一個每個目標指標都滿足的設計,其中四個指標比自己的初始嘗試改進了一個數量級。

上面3個demo有點難看懂是吧?沒關係,其實簡單來講,就是小米想要展示MiMo-V2.5-Pro它能連續干幾小時、調用上千次工具、最后還真地把產品給你做出來。

重點不是「聰不聰明」,是它「能不能把活干完」。

在這些實驗中,V2.5-Pro展現出了一種「harness awareness」。它充分利用harness環境提供的能力,管理自己的記憶,並塑造自己的上下文如何被填充以達成最終目標。

小米還把多模態和agent能力合到一起。原生視覺和音頻理解,Video-MME達87.7分,接近Gemini 3 Pro的88.4分。Claw-Eval多模態子集23.8分,與Claude Sonnet 4.6持平。

最長支持100萬token上下文,agent性能超過上一代MiMo-V2-Pro。在自家MiMo Coding Bench上,MiMo-V2.5達到接近Pro級體驗,但成本只要一半。

一般AI廠商,往往是「代碼強的一個模型、多模態強的另一個模型、長上下文再單獨區分一個版本」。

MiMo-V2.5把「看、聽、推理、調用工具」全都放到一個統一模型里,可以理解更多的需求,也可以執行更復雜的任務,這比單純刷分要有意義。

MiMo還把「token效率」當成了賣點,說白了,就是省錢。

在ClawEval上,MiMo-V2.5-Pro以約7萬token/trajectory達到64% Pass^3,相較Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,在相近能力下少用約40%到60%token。

為什麼能省這麼多呢?因為agent的真實成本來自長鏈條工具調用、反覆讀寫上下文、持續推理,單輪問答只是小頭。誰在這件事上更省token,誰在生產環境里就更可能被用。

很多模型雖然宣稱支持超長上下文,但真跑起來很貴。

小米這次直接取消1M上下文的額外倍率,本質上是在降低Agent試錯門檻。

小米應該是想要瞄準那些,跑長期、複雜任務的用户,因為這種任務反而會更省錢,對於一般用户來説,其實很難感受到MiMo省錢的地方。

02 雷軍要「賣算力」了?

隨着V2.5的發佈,小米完善了他們4月3號發佈的Token Plan訂閲體系,從Lite ¥39/月到Max ¥659/月一共4檔,新增夜間8折、包年88折等運營商式定價策略,並對老用户全量重置已用Credits。

這套打法相當於是告訴你,小米現在是一個正經賣token的公司了。

MiMo的Token Plan本質上是在構建一個非硬件依賴的經常性收入模型,這點非常「不小米」。

而且小米特地選在夜間發佈,就是爲了對準美國的時間,以拓展國際化市場。

當小米自建算力集群達到一定規模后,每增加一個付費用户的成本極低,但ARPU(每用户平均收入)可以通過差異化定價持續提升。

這是典型的SaaS商業模式,毛利率可以達到70% 以上,比汽車手機家電都要高。

Token Plan適配Claude Code、OpenClaw等主流AI開發框架,實際上也是在爭奪AI原生應用的底層基礎設施入口。

更深一層,如果小米汽車、小米IoT設備的第三方應用都基於MiMo開發,雷軍就掌握了整個生態的「算力税收權」。每一次API調用都是一次變現機會。

不過,我認為小米Token Plan能否起飛的核心,在於能否兑現V2.5系列的開源承諾。

小米從手機時代開始,走的就是開源路線。雖然説開源意味着社區開發者可以免費部署和微調模型,表面上會蠶食Token Plan的付費用户。

但真正的商業邏輯在於,開源吸引長尾開發者,他們貢獻代碼、優化模型、構建應用,形成生態繁榮。

閉源API服務高頻高價值場景,企業客户爲了穩定性、SLA保障和技術支持,依然會選擇付費Token Plan。

開源社區反哺模型迭代,小米可以低成本獲取海量真實場景的微調數據和bug反饋。

這個邏輯在行業里已經被驗證過。

Meta的Llama系列開源后,社區貢獻了大量微調版本和應用案例,反過來鞏固了Meta在AI基礎設施層的話語權。小米如果能走通這條路,Token Plan就會成為連接開發者、企業客户和小米生態的樞紐,訂閲服務只是它的一個側面。

從產品定位看,MiMo-V2.5和V2.5-Pro形成了明確的分層。

V2.5是「原生全模態+強agent能力」,適合需要多模態輸入的日常開發任務。V2.5-Pro是「長程agent」,適合需要持續數小時、上千次工具調用的複雜工程任務。這種分層的邏輯是場景適配,性能高低只是表象。

對小米來説,Token Plan的意義不只是多一條收入來源。它是小米從「硬件公司」到「AI公司」敍事轉型中最重要的一塊拼圖。

小米過去的商業模式是「硬件+IoT生態」,用性價比硬件獲取用户,用IoT設備構建生態。這個模式的天花板在於硬件銷量和IoT設備滲透率。

Token Plan是雷軍的新嘗試。用AI能力獲取開發者,用開發者構建應用生態,用API調用持續變現。這個模式的天花板在於AI能力的強度和生態的活躍度。

至少比從北京到上海全程直播要更賺錢一些。

如果MiMo能在開發者社區站穩腳跟,小米就有機會從「賣手機的公司」變成「提供AI基礎設施的公司」。這個轉變的商業價值,遠遠超過Token Plan本身的訂閲收入。

03 MiMo-V2.5挑刺

那麼既然小米喜歡打我的臉,那我也樂意再給他們挑挑刺。

目前SWE-bench Pro最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro在SWE-bench Pro上拿到57.2%,距離這個新巔峰還有些遙遠。

此外,MiMo-v2.5在通用高階推理天花板的關鍵測試集中表現一般。MiMo-V2.5-Pro在Humanity's Last Exam上是48.0%,而GPT-5.4是58.7%。

在「高階知識密度+跨學科抽象推理」上,和最頂級模型還有一段距離。

更重要的是,目前小米還缺乏可復現的硬證據。

小米自家的MiMo Coding Bench、SysY編譯器233/233、11.5小時做視頻編輯器、模擬電路EDA閉環優化、「harness awareness」,它們都是「高光demo」或「實驗室showcase」,作為「開源」(雖然暫時還沒開源)的模型,它沒有完全可復現、可橫向對比的公開標準。

這件事其實「不太開源」。

這是最好的一次,還是平均水平?prompt、工具、權限、上下文注入方式是什麼?成功率是多少?成本是多少?換一批任務還穩不穩?

1868次工具調用、672次工具調用,這些超長鏈路中,有多少次是無效調用、重複調用、錯誤調用?如果這些細節不公開,demo的説服力就會打折。

「harness awareness」這個説法很抓眼,但不夠有説服力。

這個詞聽起來很高級,那它到底是模型真的學會了如何管理agent runtime?還是説只是因為這個任務的harness寫得好、任務設計得順,還是評測環境對它比較友好?

我現在很難判斷。

小米強調V2.5-Pro具備「harness awareness」,但這也意味着模型高度依賴特定harness(Claude Code、OpenClaw等),小米沒有自己的harness工具。

如果某天別人平臺策略變了,那麼小米能做的事情,只能是重新調整模型去適應別人。

還有一點也非常重要,那就是小米啥時候才能開源。

羅福莉曾經説過「MiMo-V2系列模型會在技術足夠穩定、真正配得上開源的時候,開源」。現在2.5都出來了,開源的也只有V2 Flash這一款,其他V系列模型,尤其是V2 Pro,並沒有開放權重。

「即將開源」和「已經開源」之間還是不太一樣的。

V2.5系列同樣聲稱「即將全球開源」,但「即將」是一周、一個月還是半年?

這個問題的答案,決定了Token Plan到底是真正的商業化起點,還只是一次營銷噱頭。

現在它看起來已經很能打,但離「讓大企業放心上生產」還差一層更硬的工程披露,比如説更完整的公開benchmark表,或者更透明的失敗案例之類的。

MiMo-V2.5和V2.5-Pro的發佈,對小米來説是一次重要的技術證明。

它證明了小米只需要1個月可以從一個被質疑「迴避硬核測試」的狀態,迭代到一個敢於正面公佈SWE-bench Pro成績、並且成績接近全球頂尖模型的狀態。

這個速度本身就說明了小米在AI上的投入強度和團隊執行力。

Token Plan是一個好的開始,但它能否真正吸引到足夠多的開發者,取決於開源承諾能否兑現、服務穩定性能否保證、以及生態能否真正繁榮起來。

小米現在站在一個關鍵的十字路口。往前走,它有機會成為一家真正的AI基礎設施公司。往后退,它可能只是又多了一個營銷故事。

時間會給出答案。

本文來自微信公眾號「字母AI」,作者:苗正,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。