熱門資訊> 正文

海外評測DeepSeek-V4：智能體任務排名開源第一，幻覺率上升，Token消耗大

2026-04-25 13:16

OP(OP_USD.HASHKEY) 0
英偉達(NVDA) 0

每經編輯｜蘭素英

4月24日， DeepSeek-V4預覽版正式發佈並同步開源，號稱在Agent能力、世界知識與推理性能三大維度達到國內及開源領域領先水平。

DeepSeek-V4分為Pro與Flash兩個版本，均支持百萬（1M）token超長上下文。

兩個版本均大幅降低了對計算和顯存的需求，將每個標記的推理FLOP降低 73%，並將KV緩存內存佔用降低90%。

4月24日，全球最大AI模型應用程序編程接口聚合平臺OpenRouter的數據顯示，V4-Flash的調用量達270億Token，V4-Pro為47.9億Token，但沒有登上排行榜。

DeepSeek-V4發佈后，主流評測平臺進行了能力測試和排名。

Artificial Analysis對DeepSeek-V4進行了推理能力專項測評。結果顯示，V4-Pro在人工分析智能指數中斬獲52分，相較V3.2版本的42分實現10分躍升，成為僅次於Kimi K2.6的全球第二大開源推理模型。

V4-Flash得分47分，性能弱於V4-Pro，但顯著超越DeepSeek-V3.2，綜合智能水平對標Claude Sonnet 4.6（全力版），介於頂尖閉源模型與主流中端模型之間。

在智能體任務表現方面，V4-Pro在真實場景智能體工作任務中，性能位居所有開源權重模型首位，得分1554，超越Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）以及MiniMax-M2.7（1514）。

DeepSeek-V4知識儲備升級，但幻覺發生率上升。V4-Pro在全知綜合評測指標（AA-Omniscience）中得分為-10，較V3.2推理版提升11分，核心得益於知識回答準確率的顯著優化。V4-Flash得分為-23，整體水平與V3.2基本持平。

相較於V3.2的幻覺率（82%），V4兩款模型的幻覺問題突出：V4-Pro幻覺率為94%、V4-Flash幻覺率為96%，意味着模型在未知問題場景下，幾乎都會強行生成答案。

DeepSeek-V4的運行成本低於頂級閉源模型，高於主流開源模型，較前代大幅上漲。完成全套人工分析智能指數測評，V4-Pro的運行成本為1071美元，僅不到Claude Opus 4.7（4811 美元）的四分之一；但對比同類開源模型仍偏高，高於Kimi K2.6（948 美元）、GLM-5.1（544美元）、DeepSeek-V3.2（71美元）、gpt-oss-120B（67 美元）。DeepSeek-V4-Flash運行成本僅約113美元，成本優勢顯著。

完成標準測評流程，V4-Pro輸出Token消耗量達1.9億，屬於本次測評中Token消耗最高的模型之一；V4-Flash消耗進一步攀升至2.4億Token。即便定價偏低，高額的Token消耗仍是V4-Pro綜合使用成本高於其他開源模型的核心原因。

在其他評測中，大模型競技場Arena.ai將DeepSeek-V4-Pro定性為「相較DeepSeek-V3.2的重大飛躍」，在其代碼競技場中位列開源模型第3位、綜合第14位。DeepSeek-V4-Pro在智能體網頁開發任務中與GPT-5.4-high和Gemini-3.1-Pro處於同一水平。在其文本競技場中，DeepSeek-V4-Pro位列開源模型排名第2、綜合第14，與Kimi-2.6持平。DeepSeek-V4-Flash位列開源模型排名第10、綜合第14。

另一家測評方Vals AI稱，DeepSeek-V4在其Vibe Code Benchmark（氛圍代碼基準）中以「壓倒性優勢」拿下開源權重模型榜首，較上代V3.2實現約10倍性能躍升，甚至擊敗了像Gemini 3.1 Pro這樣的頂尖閉源模型。DeepSeek-V4也是唯一一個在Vibe Code Benchmar上突破40%的開源權重模型。

相較於DeepSeek-V4的能力，海外更加關注DeepSeek與華為的合作。

在DeepSeek-V4公佈API價格信息的最下方，官方特別標註指出：「受限於高端算力，目前Pro的服務吞吐量十分有限，預計下半年昇騰（Ascend）950超節點批量上市后，Pro的價格會大幅下調。」

DeepSeek在技術報告中稱，V4已在NVIDIA GPU和華為昇騰NPUs平臺上驗證了精細粒度的EP（專家並行）方案，相較於強大的非融合基線，其在通用推理任務上可實現1.50~1.73倍的加速效果，而在對時延敏感的場景（如RL推演和高速代理服務）中則可達到1.96倍的加速效果。

而在V4發佈后，華為昇騰也同步宣佈「超節點全系列產品支持DeepSeek-V4系列模型」。據悉，昇騰950通過融合kernel和多流並行技術降低Attention計算和訪存開銷，大幅提升推理性能，結合多種量化算法，實現了高吞吐、低時延的DeepSeek-V4模型推理部署。

對於DeepSeek此次與華為合作，市場研究機構Omdia半導體研究主管何輝表示：「這對中國人工智能行業而言意義重大。」

他進一步説道：「華為昇騰芯片是中國自研水平最高、可替代英偉達的產品。DeepSeek-V4大模型適配搭載華為芯片，標誌着中國頂級大模型如今已能夠實現國產化硬件落地運行。」

高盛分析師Christopher Moniz點評稱，DeepSeek-V4預覽版發佈后，GPU及國產芯片板塊應聲走強。核心關注點之一是支撐V4模型的芯片底層架構：包括模型訓練所使用的芯片，以及推理階段搭載的硬件設備。華為搭載昇騰AI處理器的新一代人工智能計算集群，可適配運行DeepSeek-V4模型。這也意味着，中國自研AI硬件生態，正在為DeepSeek持續迭代前沿大模型提供算力支撐。

DeepSeek此次技術路線轉向，也印證了英偉達首席執行官黃仁勛此前的擔憂：英偉達正面臨失去中國開發者生態的風險。

本月上旬，英偉達創始人黃仁勛在接受Dwarkesh Patel專訪時曾言：「如果DeepSeek先在華為平臺上發佈，那對美國來説將是災難性的。」在黃仁勛看來，雖然DeepSeek是一款開源模型，同樣可被用於英偉達產品上，但如果DeepSeek專門針對華為算力進行優化，在高端算力採購受限等侷限下，英偉達將處於劣勢。

與DeepSeek-R1不同，DeepSeek-V4並沒有引發美國科技股大跌。晨星高級股票分析師Ivan Su表示，DeepSeek-V4很難復刻推理模型R1當初的市場影響力，因為交易市場早已充分消化了預期：中國人工智能技術具備競爭力，且使用成本更低。

Ivan Su還稱，DeepSeek此次全新的產品定位，將國內其他開源大模型直接劃入競品行列。

布魯金斯學會研究員Kyle Chan表示，DeepSeek-V4令人印象深刻，因為它是一個接近最先進水平的模型，具有高效的100萬Token上下文長度，並且可以在華為的新芯片上運行。DeepSeek-V4沒有複製「DeepSeek-R1時刻」，因為外界對中國AI能力的期望值要比以往高得多。

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請覈實。據此操作，風險自擔。

封面圖片來源：每經記者蘭素英攝

海外評測DeepSeek-V4：智能體任務排名開源第一，幻覺率上升，Token消耗大

推薦文章

美股機會日報 | 半導體警報拉響？OpenAI未達銷售目標引恐慌；油價飆升，黃金白銀跳水！納指盤前走低跌逾1%

華盛早報 | 刷新紀錄！英偉達大漲4%，市值突破5.2萬億美元；分手了？微軟官宣解綁OpenAI

4月28日外盤頭條：特朗普與幕僚討論伊朗最新提議 歐盟向谷歌發佈AI競爭合規指南 美光與閃迪股價持續走高

美股機會日報 | 半導體逼空繼續！高通盤前「狂舞」一度漲14%；知名投行：特斯拉與SpaceX合併概率或超80%

華盛早報 | 和談再陷僵局？特朗普叫停赴巴，伊朗遞交停戰條件；官宣降價75% ！DeepSeek推動AI「價格戰」

華泰 | 港股策略：佈局現金流確定性與產業確定性

伊朗戰爭「撲朔迷離」 全球科技股「爆炸上漲」！高盛對衝基金業務主管：這個市場很難做

披露文件顯示，特朗普3月份購買了至少5100萬美元的債券

4月28日外盤頭條：特朗普與幕僚討論伊朗最新提議歐盟向谷歌發佈AI競爭合規指南美光與閃迪股價持續走高

伊朗戰爭「撲朔迷離」全球科技股「爆炸上漲」！高盛對衝基金業務主管：這個市場很難做