熱門資訊> 正文

DeepSeek再放大招，國產大模型坐不住了

2026-04-24 15:55

英偉達(NVDA) 0

原標題：DeepSeek再放大招，國產大模型坐不住了

DeepSeek V4上桌，牌局又變了。

過去一年多，大模型圈每季度至少經歷一次牌面重洗。有人在多模態端連出三張底牌，有人在Agent賽道一把梭哈，還有人乾脆掀了桌子，把模型拆成零件來賣。

但所有人都在等一個人出牌。

這人一年多沒動靜。2025年1月R1發佈之后，他就像從牌桌上消失了。中間V3.1、V3.2、FlashMLA、DualPath這些零零散散的更新，充其量算在桌下換了一手牌，沒人知道他手里到底攥着什麼。

4月24日，DeepSeek終於把牌撂下來了——V4預覽版正式上線並開源，兩個版本：V4-Pro和V4-Flash。

Pro對標*閉源。Agent Coding模式下，內部測評體驗優於Sonnet 4.5，交付質量接近Opus 4.6非思考模式。世界知識測評大幅*其他開源模型，僅稍遜於Gemini Pro 3.1。數學和代碼推理性能上，官方稱「超越當前所有已公開評測的開源模型」。

Flash是輕量版，推理能力接近Pro，但參數和激活更小，API響應更快，成本更低。兩款都支持百萬token上下文——而且是標配。

問題來了：一家公司，在同行瘋狂跑馬圈地的十五個月里基本沉默，一出手卻直接把自己釘回了行業錨點，這説明什麼？

説明牌桌上的人根本沒離開過。他只是換了一種打法。

01、架構的延續性革命

要理解V4，先得回看V3。

2024年底，當時大模型行業的主流敍事還是「參數越大越強」。訓練一個大幾千億參數的模型，成本動輒千萬美元起步。DeepSeek V3用6710億總參數、每次推理激活37B專家的MoE架構，把單次訓練成本壓到了500萬美元出頭。

不靠砍參數量，靠MoE路由策略、DSA注意力機制和工程層面的*優化，說白了，把每一分算力都花在刀刃上。

V4走的還是這條路，但走到了更遠的地方。

技術規格上，V4完整版總參數躍升至1.6萬億，2850億的Lite版作為更經濟的選項。注意力機制升級為DSA2，整合了DeepSeek V3/R1中的DSA設計，同時引入今年初論文中提出的NSA稀疏注意力方案。MoE系統啟用Mega內核結構，每層配置384個專家，每次推理激活其中6個。殘差連接沿用Hyper-Connections方案，這條路在近期的DeepGemm更新中已有預演。

這些名詞堆在一起，外行看着像天書，但業內人一眼就能讀出含義：V4是DeepSeek過去兩年來所有技術積累的集大成。

但最值得關注的變化，在於它的實現方式。

V4延期發佈的真正原因，不是什麼bug修不完，而是DeepSeek把整套系統從英偉達生態搬到了華為昇騰芯片上。

這不是換個驅動的事兒。DeepSeek R1當年對英偉達GPU的PTX底層做了*優化，這是它「花小錢辦大事」的核心競爭力。PTX是CUDA生態里的中間語言，深入到這層，才把當時能壓榨的性能都壓了出來。但轉到華為昇騰之后，基於英偉達的所有工程積累全部作廢。整套底層代碼、調度邏輯、工程體系，要重寫一遍。

難度在哪里？大模型參數達到萬億級別之后，算力壓力從「純計算」轉向了「系統調度與通信」。DeepSeek V4雖然通過MoE降低了單次推理的計算量，但對內存帶寬、芯片間互聯、KV Cache管理的要求反而更高了。

英偉達生態里，Hub上關於H100/B200通過NVLink構建高帶寬互聯的討論早已證實，其單節點GPU間帶寬可達TB/s級別。昇騰在這些指標上有明顯差距，更多依賴光模塊進行跨節點擴展，會引入額外的延迟和同步開銷。軟件層面，昇騰的CANN框架在算子覆蓋、自動並行、內核融合等方面的成熟度，與CUDA生態仍不是同一個量級。

代價就是時間。V4原計劃今年農曆新年或2-3月發佈，一路推到4月才亮相。按路透社的報道，V4將運行在華為最新的昇騰芯片上，工程師花了大量時間重寫核心代碼。V4計劃發佈兩個版本：完整版面向華為昇騰芯片，輕量版可在其他國產芯片上運行。

這件事的意義怎麼強調都不過分。過去兩年，大模型世界建了一座巨大工廠，所有的工具、標尺、流水線都是英文寫的。你在這個工廠里干活，就必須用別人的工具。英偉達CEO黃仁勛近期的反應很能説明問題，他説DeepSeek基於華為平臺的新模型「對美國來説將是一個糟糕的結果」。這話從英偉達老闆嘴里說出來，分量*不輕。

一旦有*模型在中國國產硬件上跑通了穩定高效的推理，美國芯片的護城河就不再牢固。而在4月24日的發佈中，官方已明確迴應，V4在下半年將正式支持華為算力。

02、推理端開始降價，百萬token的平權

架構的優化落到地面，看的是成本。而成本控制這件事，DeepSeek以前干過一次了。

2025年初，當各家大模型還在拼訓練端燒錢速度的時候，DeepSeek V3用一套優化到*的MoE加DSA架構，把同等參數量級下的訓練成本砍到了業內平均水平的幾分之一。有評論稱之為「訓練端通縮奇蹟」。

但過去一年，AI行業的問題已經從「怎麼訓出一個好模型」變成了「怎麼讓好模型被用得起」。2026年中國日均Token調用量突破140萬億，兩年間漲了一千多倍。當調用量以這個速度膨脹，推理成本就成了*的命門。

V4在推理端做了兩道減法。*道在架構層面:注意力機制從密集計算改為DSA2稀疏注意力，Token維度直接做壓縮。官方表述是「相比傳統方法，對計算和顯存的需求大幅降低」。第二道在精度層面：支持FP4精度，對顯存的要求在FP8基礎上再降一半。

路透社此前報道的推算也佐證了效率控制的成果：V4每個token僅激活約370億參數，推理成本與V3保持在同一量級。參數量翻了不止一倍，推理成本卻沒漲。這意味着大到需要算力集群的企業，小到調用API的創業者，都能在更大規模的模型上維持相近的預算。

而DeepSeek長期以來的定價也起到了降低門檻的作用。模型好用，用得便宜，調用量自然持續增長。反過來持續分攤攤銷研發投入，再推動更大規模模型的開放，形成一個正向飛輪。

這個邏輯過去一年在開源模型里跑通了不止一家，V4大概率是這條路上最新的加速器。

V4還有一個容易被忽視的信號：百萬token上下文成為標配。

一年前，1M上下文還是Gemini*的王牌，其他所有閉源模型普遍在128K或200K之間，開源生態幾乎沒人碰這個量級。DeepSeek沒有把它包裝成高端增值服務，而是明確宣佈從今天開始，V4所有官方服務的上下文默認都是1M。而且開源。

它的技術路線也解釋得很乾脆。用一種全新的注意力機制在token維度上做壓縮，同時配合DSA稀疏注意力，直接把傳統Attention的計算量和顯存需求量削了下去，使得模型處理1M上下文時的實際開銷並不比處理128K高多少，甚至可以忽略不計。

此前的方案爲了支撐長上下文，往往要追加內存、增加緩存層級。而V4把這條路走了個捷徑，且已經開放給所有人。

這意味着什麼？中小開發者用零門檻把整本《三體》塞進提示詞，法律合同分析可以全文一次性送入模型，長周期多輪Agent調用完全免去記憶壓縮的魔改。

2025年，大模型行業的敍事還是「能力平權」，開源模型追上閉源，大家都能用。2026年，敍事進一步延伸，變成「使用平權」，好模型不僅要追得上，還得用得起、用得方便。

當把1M上下文和Agent能力同時開放，開發者的天花板一下子被抬高了很多。而這扇門打開之前，做Agent的團隊光是處理超長上下文的記憶管理就要花掉一半精力。

03、大廠的焦灼和各自的算盤

V4的發佈會不是在真空中開的。牌桌上已經換了不知道幾輪玩家。

大廠這邊，各家動作密集到了「每周都有新東西」的程度。2026年馬年春節前后，字節、阿里、騰訊、百度四家累計投入超45億元，以紅包、免單、科技禮品等形式推動AI應用走向全民。

技術競賽進入膠着狀態。2月，阿里、字節、MiniMax密集發佈新一代模型產品，MiniMax M2.5、Kimi K2.5、GLM-5等中國模型在OpenRouters上的Tokens消耗數已排進全球前三。

前不久，騰訊發佈混元世界模型2.0，支持二次編輯並直接導入Unity和UE引擎；阿里ATH事業部發布HappyOyster世界模擬器，支持高保真動態場景生成。同月，京東探索研究院開源自研的JoyAI-Image-Edit圖像模型，切入了AI空間理解的核心難題。

雲廠商的模型策略也從「押注一顆獨苗」轉向了多模型整合。「模型超市」遍地開花，阿里雲、百度智能雲、騰訊雲都在把多家不同廠商的模型集中納入同一平臺，按需分發推薦。這背后的邏輯很清楚，大模型正在從研發資產走向流通商品，掌握分發渠道比擁有單一模型的技術優勢，市場回報更確定。

而DeepSeek面臨的局面比一年前複雜得多。

2026年的Agent繁榮帶來了Token消耗的狂歡，從OpenClaw到Hermas都在朝同一個方向用力，把大模型調用頻次推向指數級更高。智譜、MiniMax等廠商憑藉海量的API調用在推理端悶聲發大財，甚至推動了阿里、智譜和MiniMax自身轉向閉源。

當對手的戰爭已經推進到了多模態全能矩陣和業務深融的Agent生態時，單一的基座能力和文本推理已經不足以構成護城河。V4不再打單點突破的孤膽英雄，而是必須同時在開源模型基準、超長上下文易用性、推理成本控制以及國產硬件支持等多個棋盤上取得優勢。

從發佈結果看，V4交出的答卷確實驗證了它對當下競爭焦點的理解。而它面臨的核心考驗，其實已經被精準概括，「積累的Prompt技巧，都是基於DeepSeek架構，那在一定程度上會增加開發者更換模型的成本，形成了隱形的技術定價權」。

技術定價權的持久性，取決於V4發佈之后的開源生態運營節奏和商業模式的策略縱深。

回頭看，DeepSeek V3那一次，改變的是「訓練成本」。當時行業共識是訓練大幾千億參數的模型動輒幾千萬美元，DeepSeek用500萬美元證明這個數字可以壓縮一個量級。之后各家的訓練成本預估一路走低，開源和閉源的成本基線被重新書寫。

V4這次做的是另一件事：它用萬億參數級的模型，把基準能力、百萬級上下文和Agent能力同時打包、拆開、開源，向行業宣告——成本這一刀接下來砍向推理端。

這對不同玩家的打擊是不同的。對重注閉源的大廠來説，壓力在於競爭不再只是性能對標，而是開源社區把「水電煤」的價格壓穿了之后，閉源要維持溢價變得越來越困難。

從OpenAI到Anthropic，包括國內閉源巨頭，面對Arch Lint的價格錨點，定價體系只會變得前所未有的透明。對於盯緊基礎層算力供需的服務商來説，當推理效率大幅提高、能效持續優化，整個算力需求的預期反而可能被重新上修。

更深一層的意義在於硬件生態。黃仁勛説「DeepSeek基於華為平臺的新模型對美國來説將是一個糟糕的結果」，恰好點出了這輪AI競爭的核心，從算法比拼轉到系統工程能力比拼，再到硬件生態的綁定與突圍。

V4會不會成為*個真正跑通國產算力閉環的萬億級大模型，現在還沒有定論，但它在「去CUDA化」這條路上至少提供了一種可驗證的參照系。

至於DeepSeek自己，融資、人才、商業化，該面對的問題一個不會少。據上海證券報消息，DeepSeek已啟動成立以來首次外部融資，目標估值不低於100億美元，計劃籌集至少3億美元。首代模型核心作者之一羅福莉轉投小米，R1核心研究員、GRPO核心發明者郭達雅加入字節跳動Seed。

大模型賽道的殘酷在於，你必須在飛馳的列車上邊換輪子邊踩油門，停下來哪怕三個月，就可能被甩出牌桌。

DeepSeek停了一年多，這期間對面的人一直在不停地發牌。現在它終於亮出了自己的牌。只看一個開局，勝負還遠未到來，但有一點確切無誤：這家公司的牌，從V3打到V4，不打散牌，一把王炸。

無論最終誰是贏家，這輪牌局的圍觀價值，遠遠勝過任何一個模型的跑分結果。

DeepSeek再放大招，國產大模型坐不住了

推薦文章

一周IPO | 新股喜提「五連漲」！PCB龍頭勝宏科技首日大漲50%；超購近4670倍！曦智科技等3只下周來襲

美國司法部放棄對鮑威爾調查 為沃什領導美聯儲鋪平道路

美股機會日報 | 英特爾績后飆升近30%！Q1業績及Q2指引均炸裂；美伊談判再出利好，納指期貨漲超1%；亞馬遜獲Meta芯片採購大單

一周財經日曆 | 重磅大事扎堆！美聯儲將公佈利率決議；蘋果、谷歌及閃迪等明星股齊放榜；曦智科技等3只新股上市

華盛早報 | 美伊談判「陷入僵局」！伊朗稱重心已轉為徹底停戰；連漲17日！費城半導體指數再創新高

文件顯示SpaceX獲200億美元過橋貸款，對其債務進行再融資

美伊和平談判陷入僵局，霍爾木茲海峽局勢加劇

美股機會日報 | 美伊和談有戲？據報準備工作或取得突破，三大期指跌幅收窄；績優股普升，諾基亞、德州儀器盤前均漲超10%

美國司法部放棄對鮑威爾調查為沃什領導美聯儲鋪平道路