實錘了，Llama 4重測排名掉至32名！遠不及DeepSeek和Qwen

2025-04-13 09:07

【TechWeb】4月13日消息，LMArena 更新了Meta最新發布的開源大模型Llama-4-Maverick的排名，從此前的第2名，直線掉到了第32名！

這也實錘了此前開發者對Meta為刷榜排名向LMArena提供了「特供版」的Llama 4大模型的質疑。（詳情：Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源）

4月6日，Meta發佈了最新的大模型Llama 4，包含Scout、Maverick和Behemoth三個版本。其中，Llama-4-Maverick在LMArena公佈的Chatbot Arena LLM 排行榜中的排名第二，僅次於Gemini 2.5 Pro。

然而，隨着開發者實際使用Llama 4大模型開源版的效果陸續曝出，Llama 4口碑急轉直下。有開發者發現Meta提供給LMArena的Llama 4版本與提交給社區的開源版本不同，因而Meta被質疑為刷榜作弊。

4月8日，Chatbot Arena官方發文確認了用户的上述質疑，公開表示Meta提供給他們的是「特供版」，並考慮更新排行榜。

根據Chatbot Arena官方消息，Meta首次提交LMArena的Llama-4-Maverick-03-26-Experimental是一個實驗性聊天優化版本，當時該版本的排名為第二。修正后的模型為HuggingFace開源版同款Llama-4-Maverick-17B-128E-Instruct，是17B激活參數、128個MoE專家的指令微調模型。

目前，開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名，遠低於Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至連英偉達基於上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

LMArena詳細排名如下：

實錘了，Llama 4重測排名掉至32名！遠不及DeepSeek和Qwen

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？