熱門資訊> 正文

梁文鋒又放了個王炸！

2026-04-26 10:24

英偉達(NVDA) 0
寒武紀(688256.SH) 0

作者：微瀾

DeepSeek V4，終於亮相了。

就在2026年4月24日，AI圈的平靜被一封發佈稿打破。

沒有任何預熱，沒有發佈會，深度求索團隊在官網和社交媒體上同步宣佈：全新系列模型DeepSeek-V4 預覽版正式上線並開源，即日起登錄官網或App即可體驗。

這是一次略顯突然的發佈。就在幾天前，硅谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6，全球AI領域的競爭早已呈現「萬類霜天競自由」的氣象。

站在另一個維度來看，此刻距離DeepSeek上一次讓全球AI行業震動，已經過去了近16個月。

時間撥回到2025年初。R1發佈當天，行業迅速沸騰，中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型，英偉達股價應聲暴跌。那一周，DeepSeek同時登頂中美App Store下載榜首，「中國AI奇蹟」的敍事鋪天蓋地。

在這近16個月的時間里，智譜和MiniMax先后登陸資本市場，市值一度衝破3000億元；豆包、Qwen密集發佈新版本，頻頻登頂各類榜單；Anthropic推出Claude 4系列，OpenAI迭代至GPT-5.5，

而DeepSeek在V3之后長達近16個月的時間里，只推出了幾個跑分變化不大的中間版本，外界關於「DeepSeek是否后繼乏力」的猜測此起彼伏。

近16個月的時間里，整個行業都在等待一個答案：DeepSeek究竟是曇花一現，還是一條可持續的技術路線？

終於，答案來了。

DeepSeek V4，有哪些亮點？

客觀上講，DeepSeek V4的發佈略顯朴素，沒有任何預熱，也沒有發佈會。

並且，在DeepSeek官方的稿件里面，似乎也沒有太多「炸裂」元素。

DeepSeek官方在技術報告中坦誠地寫道，V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro，「發展軌跡大約滯后前沿閉源模型3至6個月」。在國內AI發佈稿里，這種主動承認差距的寫法相當罕見。

但真正值得關注的不在於跑分是否登頂，而在於V4解決了一個困擾大模型行業多年的根本問題：長上下文的成本困境。

衆所周知，傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍，計算量翻四倍。這意味着，把上下文從128K擴展到100萬token，理論上計算量會增長約60倍。

這也是為什麼長期以來，百萬字上下文要麼是Google Gemini的獨家王牌，要麼是實驗室里的漂亮數字，太貴了，用不起。

V4給出的解法是一種全新的混合注意力架構。通俗地解釋，就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對，工作量隨頁數翻倍而變成四倍。聰明的辦法是：先粗略判斷哪些頁面可能相關（稀疏選擇），再把相關頁面壓縮成摘要（token壓縮），兩步疊加之后，工作量增長曲線被大幅壓平。

這正是V4的核心創新：CSA（壓縮稀疏注意力）和HCA（高度壓縮注意力）的混合架構。在1M上下文設置下，V4-Pro的單token推理算力只有上一代V3.2的27%，KV緩存僅需10%；更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。

換句話説，上下文長度擴大了近8倍，但推理成本反而下降了。

再回到模型本身來看，V4一口氣發佈兩個版本：DeepSeek-V4-Pro 總參數1.6萬億、每次推理激活49B；DeepSeek-V4-Flash 總參數284B、激活13B。兩者均原生支持100萬token上下文。

理解這兩個數字需要先理解MoE（混合專家）架構。簡單講，V4內部有大量「專家」子網絡，每次處理信息時只激活其中一小部分。總參數決定知識容量，激活參數決定推理成本。這就像一家公司有1600個身懷絕技的員工，但每個項目只調49人上陣，可以按需靈活組合。

在能力評估上，DeepSeek的措辭相當剋制。

發佈稿明確表示：V4-Pro的Agent能力優於Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與后者思考模式存在差距。在內部85名開發者和研究人員的調研中，超過九成認為V4-Pro已可作為首選或接近首選的編程模型。

能力的分佈是不均勻的。在數學、STEM、競賽型代碼等推理密集型任務上，V4-Pro超越所有已知開源模型，比肩頂級閉源產品；在Codeforces人類選手排行榜上，V4-Pro-Max位列第23名；但在世界知識方面——事實性信息的覆蓋廣度，僅稍遜於Gemini-Pro-3.1。

這個差距來自數據：Google擁有搜索引擎索引和更大規模網頁抓取的結構性優勢，不是算法可以短期彌補的。

V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位，第一反應是「Flash就是降配版」，但實際並非如此。

V4-Flash的推理能力與Pro接近，世界知識稍遜，而在Think Max模式下，性能可以大幅追近Pro：LiveCodeBench Flash Max達到91.6，Codeforces Flash Max Rating達到3052，與Pro Max的差距已相當有限。

DeepSeek的底層突破

V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。

Agent任務的核心約束一直是上下文管理：任務鏈越長，需要維護的狀態越多，有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味着，Agent可以在更長的操作鏈里保持狀態連貫，處理更大規模的代碼庫，跨越更多文檔進行推理。

不只是模型變聰明瞭，底層條件也變了。

V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配優化。后訓練階段，Agent是作為與數學、代碼並列的獨立方向單獨訓練的；工具調用格式從JSON換成了帶特殊token的XML結構以降低錯誤率；跨輪次的推理痕跡在工具調用場景下完整保留，不再每輪清空。另外，DeepSeek還搭建了一套名為DSec的沙箱平臺，單集群可併發管理數十萬個沙箱實例，專門用來支撐Agent強化學習訓練和評測。

這些細節指向同一個方向：V4不是在做「更強的聊天機器人」，而是在做「能干活的操作系統」。

另外，V4最核心的技術改動，是在注意力層。

傳統Transformer的注意力機制，每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬，計算量增長的不是10倍，而是100倍。

V4的做法是把注意力拆成兩種，交替疊用：

一種是CSA（壓縮稀疏注意力），先把每若干token的KV緩存合併成摘要，再讓每個query只在這些摘要里挑選最相關的top-k條去算注意力——相當於既壓縮了「要看的內容」，又只挑「值得看的」去算；

另一種是HCA（高壓縮注意力），用更激進的壓縮率把更長區間的token合併爲一條，但保持稠密注意力。兩種機制交替疊加，再加上一個滑動窗口分支處理「離得近的token之間的細節依賴」，形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。

而除了注意力層，V4還在殘差連接和優化器上動了刀。

傳統殘差連接被升級為mHC（流形約束超連接），通過數學約束讓深層網絡的信號傳播更穩定；大部分模塊的優化器從AdamW換成了Muon，通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、優化器這三處核心結構。

后訓練方法同樣換了範式。V3.2用的是「混合RL」，一次性優化多個目標。

V4則換成了「分化再統一」的兩步走：先針對數學、代碼、Agent等不同領域獨立訓練專家模型，每個專家都在自己的賽道上跑到最優；再用一種叫On-Policy Distillation的方法，把十多個領域專家「蒸餾」回一個統一的學生模型——學生自己生成回答，針對每個回答匹配最懂這個問題的專家的輸出分佈，通過logit級對齊把能力吸收進來。用通俗的話説，把一堆尖子生蒸餾成一個通才。

這套流程的工程難度在於：同時加載十多個萬億參數級的教師模型做在線推理幾乎不可能。DeepSeek的做法是把所有教師權重統一卸載到分佈式存儲，只緩存每個教師最后一層的hidden state，訓練時按教師索引排序樣本，保證任意時刻GPU顯存里只駐留一個teacherhead。

從2025年初到今天，V3.1、V3.2那些「沒什麼亮點」的中間版本，當時看似乎是在原地踏步。現在回頭看，DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證，都是在那時悄悄種下的，V3.2正是V4的地基。

DeepSeek V4，對國產芯片價值幾何？

如果説技術架構的革新是V4的「明線」，那麼對國產芯片產業鏈的重塑，則是這次發佈最容易被低估的「暗線」。

要理解這條暗線的分量，需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今，行業的共識是：訓練看算力，推理看顯存。在訓練階段，誰能買到更多高端GPU，誰能堆出更大集群，誰就更有機會做出更強的基礎模型。

英偉達憑藉H100/A100系列GPU和CUDA生態，在這個階段建立了看似難以逾越的護城河。

但大模型做出來之后，真正決定商業化速度和產業滲透深度的，是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發后，推理的成本結構發生了根本性變化。

Agent任務的特點是上下文越來越長、記憶越來越深、工具調用越來越頻繁。在這個場景下，GPU的顯存會被KV緩存撐爆，大模型的推理質量急劇下降。

推理的第一個瓶頸，不是算力不夠，是「記憶」和「計算」在搶同一塊顯存。

這正是國產芯片最大的短板所在。受限於先進製程，國產GPU在算力峰值上尚可追趕，但在顯存容量和帶寬上與英偉達存在代際差距。英偉達最新一代Rubin GPU搭載288GB HBM4內存，而國產芯片如昇騰910B的顯存容量為64GB。如果按照傳統架構跑長上下文推理，這個差距幾乎是致命的。

DeepSeek V4的解題思路，不是硬拼硬件，而是從架構層面重構了「記憶」和「計算」的關係。

這涉及兩個關鍵創新：其一，CSA/HCA混合注意力機制大幅壓縮了KV緩存佔用，1M上下文下，V4-Pro的KV緩存僅為V3.2的10%，V4-Flash更是壓到7%。

其二，據公開論文推測，V4採用的Engram架構把模型里那些「死記硬背」的靜態知識抽出來放入獨立的內存表，推理時CPU負責「查字典」檢索知識，GPU只負責「想邏輯」計算推理，兩者完全重疊執行。當GPU在算上一個詞的邏輯時，CPU已經把下一個詞所需的知識搬到了門口。

延迟被這種並行架構徹底掩蓋。

結果是什麼？一個原本需要80GB顯存才能跑的長上下文推理任務，在Engram架構下可能只需要8GB顯存。英偉達引以為傲的HBM顯存稀缺性，在這套架構面前被大幅削弱。國產芯片那64GB的顯存容量，突然變得夠用了。

這解釋了為什麼黃仁勛會在近期訪談中做出一個意味深長的假設。他説，如果DeepSeek新模型在華為平臺上首發，「這一天對美國來説將是一個可怕的結果，因為這意味着AI模型被優化為在中國AI硬件上表現最佳，而這些模型擴散到全球之后，就會推動中國技術成為世界標準。」

而DeepSeek恰恰這麼做了。

V4這次沒有按行業慣例給英偉達早期測試權限，而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。

V4技術報告第3.1節將華為昇騰NPU與英偉達GPU並列寫進硬件驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度，而FP4恰好是華為昇騰950PR芯片的原生支持精度。

這不是巧合，這是一條被悄悄鋪了很久的路。

產業鏈的傳導效應已經顯現。據有關媒體報道，阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI芯片，訂單規模達數十萬顆。

在華為之外，寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配，適配代碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈，有望成為繼寒武紀之后另一家盈利的國產GPU廠商。當DeepSeek用萬億參數級別的模型驗證了國產芯片可以承載頂級大模型的推理，整個生態的底氣就變了。

並且，從更宏觀的視角看，這件事改變的不僅是芯片選型，更是AI產業鏈的利潤分配邏輯。

過去兩年，英偉達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤，其數據中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低顯存需求，能夠跑通國產芯片並實現推理成本的大幅下降，英偉達的定價權就不再是鐵板一塊。

儘管短期內英偉達在高端訓練GPU和CUDA生態上的優勢仍難替代，但推理市場，這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。

這就是DeepSeek「曲線救國」的邏輯：不是在單卡性能上硬碰硬，而是用系統級優化、軟硬協同和架構創新，重新定義了競爭維度。

正如一位GPU企業人士所説，國內廠商都是戴着「鐐銬」與英偉達同台競技。而V4證明了一件事：戴着鐐銬也可以起舞，甚至能跳出一支讓對方緊張的舞。

結語：梁文鋒的安靜「棋局」

V4發佈稿結尾，DeepSeek引了一句荀子：「不誘於譽，不恐於誹，率道而行，端然正己。」

這句話放在DeepSeek一路走來的故事語境里，意味深長。

過去一年多，DeepSeek在外界的敍事里經歷了過山車般的起伏。

2025年初V3和R1爆火后，媒體將其捧上神壇，「中國AI奇蹟」的敍事鋪天蓋地。隨后一年多，當Anthropic、OpenAI密集發佈新模型，而DeepSeek只推出幾個跑分變化不大的中間版本時，關於「后繼乏力」的質疑又此起彼伏。在這個崇尚競爭和結果説話的行業里，掌聲和噓聲都來得極快。

而梁文鋒似乎始終活在自己的節奏里。

在DeepSeek內部，梁文鋒更多扮演着一個導師的角色：組織研發、協調資源，也做具體研究，在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上，不做融資、不參加團建、很少和成員聚餐。

DeepSeek至今保持着一些在全球AI圈都極其罕見的習慣：不打卡、沒有明確的績效考覈，平日里多數員工會在下午六七點離開公司。在梁文鋒看來，一個人每天能高質量工作的時間很難超過6到8小時，加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。

接近過樑文鋒的人曾評價：「他是一個特別抗噪音的人。」

這種抗噪音的能力，解釋了DeepSeek為何沒有在R1爆火后乘勝追擊放大招，而是沿着自己選定的方向繼續深耕效率優化、架構改進和一些「非主流」探索。梁文鋒認同的AGI目標有兩層含義：一是基於國產生態來做大模型，他曾提出過「能不能用現存的一部分算力，就實現現在所有的智能」的假設；二是做「原創式創新」，做一些大廠或其它創業公司不會去試、不願去試的方向。

這或許也能解釋V4為何選擇在這個時間點發布。不急不躁，按自己的節奏出牌，在技術成熟度、生態適配和成本重構都到位的節點，一擊中的。

也就在V4發佈后，一個容易被忽略的細節值得被重新提起：截至2026年4月，斯坦福大學HAI實驗室發佈的年度《AI指數報告》顯示，中美大模型性能差距已收窄至2.7%，基本實現技術追平。

這個數字的背后，是兩種截然不同的路徑。

美國走的是「算力堆疊+商業驅動」的路，用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破；

中國走的是另一條路，一條在算力受限、芯片被卡的條件下，只能靠架構創新和系統優化來「戴着鐐銬起舞」的路。DeepSeek V4的每一項創新背后都能嗅到一個共同的動機：如何在更少的顯存、更低的算力、更受限的硬件條件下，榨出更多的智能。

可以説，DeepSeek V4不是終點，甚至不是一次高潮。

它是一個信號，一個在算力受限的逆風局里，依然可以用原創架構打開新空間的信號；一個頂級開源模型不再必須綁定在英偉達芯片上的信號；一個沒有融資、不卷加班、按自己節奏前行的團隊，依然能站在第一梯隊的信號。

「不誘於譽，不恐於誹，率道而行，端然正己。」

中國人工智能要走的路或許還很長，但方向並不迷茫。（PS：本文由DeepSeek輔助完成）

參考資料：

[1].《剛剛，DeepSeek V4 雙版本正式上線！》，機器之心

[3].《DeepSeek V4：一句"下半年上國產算力"，比所有發佈會都重要》，星海情報局

[4].《一文讀懂DeepSeek V4：1.6萬億參數、百萬上下文、華為芯片》，騰訊科技

[5].《DeepSeek-V4 預覽版：邁入百萬上下文普惠時代》，DeepSeek

[6].《DeepSeek-V4 技術報告》

[7].《別高估英偉達，別低估DeepSeek》，虎嗅APP

[8].《V4 發佈前的 DeepSeek：特質、組織和梁文鋒的獨特目標》，晚點LatePost

梁文鋒又放了個王炸！

推薦文章

美股機會日報 | 戰火重燃？伊朗向美軍艦開火，布油一度飆漲5%；全球存儲狂飆！希捷科技盤前漲近4%，閃迪漲超2%

海灣局勢疲勞老加劇，財報成市場焦點

港股異動 | 光通信股大漲，曦智科技-P漲超11%，劍橋科技漲超10%，長飛光纖光纜漲超5%

高盛上調MiniMax評級至買入 稱收入穩健且股價回調帶來良好風險回報

一周財經日曆 | 美聯儲內部罕見分歧！大小非農震撼來襲，能否提升降息預期？Palantir、AMD、Lumentum財報輪番登場

一文讀懂巴菲特股東大會！拒絕盲目跟風佈局AI，3970億美元現金儲備再創新高，深度偽造巴菲特警示AI風險

美股機會日報 | 太意外！美官員突然宣佈：敵對行動已結束；五角大樓與谷歌、英偉達、SpaceX等簽署協議！

港股周報 | 4月收官！北水大買港股超565億港元，科指漲近5%；績優股狂飆！龍蟠科技周漲超17%

高盛上調MiniMax評級至買入稱收入穩健且股價回調帶來良好風險回報