熱門資訊> 正文

尋找下一個「英偉達」：AI 產業鏈革命進入新階段，誰能登上Context內存戰爭的王座？

2026-05-11 21:28

【導語】

最近在做 Multi-Agent（多智能體）投研系統時，我遇到了一個極其抓狂的問題：

一份真正複雜的研報，經常要跑幾個小時，甚至整整一晚上。當 Tokens 消耗到數萬級別之后，響應時間會急劇上升，複雜任務甚至可能卡到一小時以上。

尤其是在以下場景同時發生時，延迟會變得格外明顯：

多 Agent 協同
工具鏈調用
長上下文推理
結構化對抗分析

一開始，我以為問題只是單純的「算力不夠」，準備咬牙升級LLM的套餐，但是我的套餐的請求符合並沒有打滿，也沒有鏈接的報錯。問題可能AI面對超長Context導致的系統級別的阻塞，而且可能已經不是 GPU 本身了。

而是：「內存」，更準確地説，是大模型卡在了「數據搬運（Data Movement）」。

而最近資本市場和 AI 基礎設施的變化，其實已經開始提前反映這一點。

一、AI 產業正在進入一個詭異的新階段

過去兩年，整個市場都在瘋狂購買 GPU。但現在，一線工程師發現了一個非常微妙的變化：在很多 AI 系統里，GPU 的算力還沒跑滿，內存已經先崩了，於是Context管理成爲了Harness Engineering的重要組成。

這背后其實意味着，AI 的核心瓶頸，正在發生歷史性轉移：從Compute-centric（以計算為中心）轉向Memory-centric（以內存與數據移動為中心）

如果説 2023-2025 的主線是「GPU 算力革命」；那麼 2026-2028 很可能進入「內存架構革命（Memory Architecture Revolution）」。

而這場革命最重要的關鍵詞，就是：CXL（Compute Express Link）。

二、為什麼 AI 突然開始「極度缺內存」？

2026年5月，整個華爾街都被"存儲芯片"的瘋狂暴漲徹底打蒙了。

美光科技（MU）：過去12個月股價狂飆 700%，市值一舉突破8400億美元；西部數據（WDC）：一年內暴漲 900%；閃迪（SNDK）：更是上演了上市以來狂漲 3300% 的終極造富神話，單日暴漲16%直接突破1560美元。

無數踏空的投資者在深夜懊悔：曾經錯過了英偉達，為什麼錯過了這波利潤更豐厚的內存狂歡？

答案很簡單，思維依然停留在 "AI = 算力 = GPU" 的舊共識里。

這波存儲股的徹底爆發，只是向市場揭開了一個殘酷真相的冰山一角： AI 系統真正面臨的致命瓶頸，早已經不是算力了，而是 Memory Wall（內存牆）。

很多人看到 NVIDIA 新一代 GPU 時，會有一種錯覺：「192GB 的 HBM 已經非常龐大了，為什麼還不夠用？」

問題在於：AI 推理階段真正像黑洞一樣吞噬內存的，往往並不是模型本體，而是 KV Cache。

這是現在二級市場最容易忽略的核心問題。

什麼是 KV Cache？簡單説：大模型在推理時，每生成一個 Token，都會保存對應的 Key 和 Value，用於后續的 Attention 計算。

上下文越長，緩存越大。

而現在 AI 行業正在同時發生的趨勢：長上下文、Multi-Agent、持續會話、實時推理、多用户併發……這些全部都會導致 KV Cache爆炸式增長。

一個 70B 級別的模型，如果跑百萬 Token 上下文，再疊加高併發，KV Cache 很容易瞬間膨脹到數百 GB，甚至 TB 級別。

問題來了：你不可能把所有數據都塞進 HBM 里。

三、HBM 的致命短板：太快，也太貴

最近內存股漲價的核心動力是HBM（高帶寬內存），

HBM確實很強，但它更像是城市里的「頂級學區房」。

它有幾個致命問題：

成本極高
功耗極高
容量擴展極其困難
嚴重受制於 CoWoS 這種先進封裝的產能

頂級學區房非常好，但不可能讓所有數據都住進去，否則 AI 公司的推理成本會直接失控。

於是，AI 系統被迫進入「分層內存時代」。

未來的 AI 內存架構，大概率會變成這樣：

Tier 0（HBM）：超快、超貴（存放最核心即時計算數據）
Tier 1（DDR5 / CXL Memory）：大容量、高性價比
Tier 2（NVMe / SSD）：更大、更慢

這意味着，未來 AI 系統的核心大考，不再是單純的「你有沒有買到 GPU」，而是：「哪些數據必須放在最快內存里？」以及「如何降低數據在各層之間的搬運成本？」

四、NVIDIA：從 FLOPS 轉向 Data Movement

過去幾年，整個 AI 行業都在拼 FLOPS（每秒浮點運算次數）、拼 GPU 數量。

但現在，如果你仔細觀察英偉達最近的動作，你會發現他們開始越來越頻繁地強調：

Context Memory
Shared Memory
Rack-scale Architecture（機架級架構）

在 GTC 2026 上，NVIDIA 已經明確提出了POD-wide context memory（即整個 Rack/POD 級別的共享上下文內存）。

英偉達的Grace-Blackwell (GB200)架構，本質上就是把 CPU 和 GPU 通過超高帶寬的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是爲了管理 HBM 和共享內存池設計的。它不賣單顆 CPU，它賣的是一整套「CPU+GPU+內存織物」的全棧解決方案。

這意味着，AI 基礎設施已經開始從GPU-centric轉向Context-centric。大家終於意識到：算力再強，數據搬不動也是白搭。

五、CXL 到底改變了什麼？解決「擱淺內存」與「NVLink壟斷」

過去幾十年的服務器架構是高度綁定的： CPU 綁定自己的 DRAM，GPU 綁定自己的 HBM。各自為戰，彼此之間很難靈活借用。

這會導致一個極度浪費的現象： GPU-A 的 HBM 已經被 KV Cache 撐爆了，而旁邊 GPU-B 的內存卻在閒置。因為無法動態共享，這些閒置的內存就變成了極其昂貴的「Stranded Memory（擱淺內存）」。

上面提到的英偉達NVLink-C2C不是已經解決了嗎？為什麼還需要 CXL？」

這是一個極佳的問題。答案是：它們根本不在一個生態位。

NVLink 是英偉達為自己修的「私家高鐵」。極快，但你必須買它的全套車票，把所有的計算都死死鎖定在英偉達的封閉黑盒里。它解決的是大模型暴力計算的「算力上限」。

而 CXL（Compute Express Link），是 AI 時代的「通用貨運網絡」。它是由 Intel、AMD、Google、Meta 等全行業「復仇者聯盟」共同推行的開放標準。它的核心使命不是幫某一家公司跑贏算力，而是解決全行業共同的噩夢——內存牆。它解決的是 AI 商業化落地的「成本下限」。

CXL 帶來了一個極其關鍵的概念：Memory Pooling（內存池化）。

過去，每台服務器像一棟獨立別墅，自帶水塔；未來，通過 CXL，整個數據中心將變成一個共享水網系統。不管你是誰家的 CPU，誰家的 GPU，大家都可以動態共享一個巨大的外部內存池。誰渴了，水（內存資源）就流向誰。

最終，雲端算力的內存可以靈活支取，按需按量分配。

六、有了 DeepSeek v4 這種算法壓縮，還需要 CXL 嗎？

看到這里，很多懂點技術的朋友可能會拋出一個尖鋭的問題：

「前陣子 DeepSeek v4 出來，不是通過首創的 MLA（多頭潛在注意力機制）架構，硬生生把 KV Cache 的顯存佔用砍掉了 80% 到 90% 嗎？」

既然算法能在物理級別把內存壓縮得這麼小，為什麼還需要搞極其複雜的 CXL 硬件池化？

這是一個極好的問題。但真相是：DeepSeek 的算法壓縮，與 CXL 的硬件池化，絕非互斥關係。而是拯救 AI「內存牆」的兩條完美交叉線。

第一，DeepSeek 本質上是「用極致的計算和帶寬，換取內存空間」。MLA 架構把龐大的 KV 矩陣壓縮成極小的潛在向量（Latent Vector）。但在計算時，模型必須極高頻地「解壓縮」還原。這依然要求極其恐怖的顯存帶寬（Bandwidth）和互聯速度。算法壓縮到了極限，是對數據傳輸寬帶的極度壓榨。

第二，物理極限與系統級死鎖。即使 DeepSeek 砍掉了 90% 的 KV Cache。當你在跑數百萬 Token 的逆天長文本、且應對數萬併發時，剩下的那 10% 依然會撐爆單機 HBM 的天花板。更致命的是： GPU-A 壓縮得再小，它省下來的閒置內存，依然無法給旁邊的 GPU-B 使用。

所以，未來的終局形態是：算法（向內壓縮）負責「節流」；CXL（向外池化）負責「開源」。

這兩者的「雙劍合璧」，纔是徹底跨越「Context Memory 戰爭」的終極解法。

七、反直覺：CPU 正在迎來「結構性復興」

看到這里，你可能會產生一個錯覺：AI 時代，傳統的 CPU 是不是徹底淪為打雜的了？

恰恰相反。在 CXL 硬件池化和 DeepSeek v4高效算法的雙重催化下，CPU 的重要性正在被史詩級重估。

如果説 GPU 是 AI 時代的「暴力肌肉」。那麼在這個龐大的 CXL 共享內存網絡里，CPU 正在重新找回它「神經中樞」的王座。

原因很簡單：

第一，誰來當海量內存池的「超級交警」？在 CXL 時代，所有的 GPU 和海量的外部內存連成了一片網。 GPU A 的閒置內存怎麼動態借給 GPU B？熱數據什麼時候切入 HBM？這種極其複雜的Memory Orchestration（內存編排調度）和多租户一致性管理，GPU 根本做不來。它必須依靠擁有極高 I/O 帶寬和複雜調度邏輯的「重型 CPU」來執行。

第二，算法壓縮倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的體積壓縮了，我們為什麼非要把它們全擠在昂貴的 GPU HBM 里？我們完全可以把這些海量的上下文記憶，存放在由 CPU 掌控的龐大 DDR5/CXL 內存池中。GPU 只管埋頭計算，CPU 負責極速調取和維護這些上下文。

AI 的下半場，對 CPU 的要求並沒有降低，而是發生了極其深刻的「職能升級」。那些擁有強大調度架構的高級 CPU，價值將面臨重構。

目前的趨勢是：ARM 正在全面壓倒 x86。

功耗是死穴：AI 機櫃的功耗已經逼近物理極限（單櫃 120kW+）。x86 的複雜指令集在能效比上天生吃虧，而 ARM 架構在處理高頻、並行的 I/O 調度時，能省下鉅額電費。

定製化是絕殺：雲巨頭（AWS, Google, Microsoft）現在都在自研 CPU。基於 ARM 的 IP 授權，他們可以像搭積木一樣，定製出最適合 CXL 鏈路和 DeepSeek 算法的私有 CPU（如 Graviton 系列）。

未來的王者，不再是那個「算力最強」的，而是那個「最懂得調度內存」的。

八、尋找真正的 Alpha：產業鏈里的「四大關鍵節點」

當 AI 基礎設施的重心發生偏移，真正的利潤池，將開始向「Memory Movement（數據搬運）」瘋狂遷移。

不要再死死盯着 GPU 和 CUDA。在即將到來的 CXL 內存池化時代，這四個環節，纔是未來 3 年最硬核的「賣水人」：

1. Retimer（高速信號修復芯片）：最先爆發的物理剛需

隨着 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍，高速信號在物理主板上極易衰減失真。 Retimer 就像是內存長途運輸線上的「加油站與放大器」。在未來的機架級（Rack-scale）AI 服務器中，它是根本繞不開的物理標配。

核心標的：Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch（價值咽喉）：AI 時代的「內存交換機」

未來，GPU 不再固定「焊死」在某塊內存上。而是通過 CXL Switch 動態連接整個內存織物（Memory Fabric）。誰能實現超低延迟、高一致性的內存交換，誰就扼住了 AI 數據網絡的咽喉。這是整個硬件鏈條中溢價最高、壁壘最深的環節。

核心標的：博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 層：統籌全局的「總指揮部」

在傳統認知里，CPU 在 AI 時代邊緣化了。錯！在 CXL 時代，CPU 成了統御龐大內存池的「總調度交警」。現在的 Alpha，不再看 CPU 的單核算力，而是看它的I/O 通道數、低功耗，以及內存調度效率。

藍圖統治者：Arm Holdings (ARM)。雲巨頭拋棄 x86 自研芯片（如 AWS Graviton），統統要給 ARM 交底座授權費。

定製化推手：世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設計 AI 芯片的幕后刀客。

x86 的最后尊嚴：AMD (AMD)。憑藉極高的 I/O 通道數和激進的 CXL 擁抱策略，EPYC 依然是公有云上的硬通貨。

反直覺的贏家：Intel (INTC)。哪怕輸掉核心，憑藉獨家的 EMIB 先進封裝（IFS 代工），依然是雲巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration：真正的軟件護城河

把海量內存連起來只是第一步。真正困難的，是「如何高效調度這些共享內存」。這涉及到極度複雜的 OS 支持、工作負載遷移和多租户隔離。這不僅是硬件的事，更是軟件生態的事。

核心標的：Rambus (RMBS)。

生態玩家：能夠研發出類似於 Meta TMO（透明內存卸載）底層軟件棧的科技巨頭，誰能做好 Memory Orchestration，誰就能建立起媲美英偉達 CUDA 級別的「內存軟件護城河」。

當 AI 基礎設施的重心發生偏移，真正的利潤池，將開始向「Memory Movement（數據搬運）」瘋狂遷移。

不要再死死盯着 GPU 和 CUDA。在即將到來的 CXL 內存池化時代，這四個環節，纔是未來 3 年最硬核的「賣水人」：

1. Retimer（高速信號修復芯片）：最先爆發的物理剛需

核心標的：

2. CXL Switch（價值咽喉）：AI 時代的「內存交換機」

未來，GPU 不再固定「焊死」在某塊內存上。而是通過 CXL Switch 動態連接整個內存織物（Memory Fabric）。誰能實現超低延迟、高一致性的內存交換，誰就扼住了 AI 數據網絡的咽喉。這是整個硬件鏈條中溢價最高、壁壘最深的環節。我們可以關注博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 層：統御全局的「總指揮部」

藍圖統治者：Arm Holdings (ARM)。雲巨頭拋棄 x86 自研芯片（如 AWS Graviton），統統要給 ARM 交底座授權費。

定製化推手：世芯電子、Marvell、博通。他們是幫巨頭們代工設計 AI 芯片的幕后刀客。

x86 的最后尊嚴：AMD (AMD)。憑藉極高的 I/O 通道數和激進的 CXL 擁抱策略，EPYC 依然是公有云上的硬通貨。

反直覺的贏家：Intel (INTC)。哪怕輸掉核心，憑藉獨家的 EMIB 先進封裝（IFS 代工），依然是雲巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration：真正的軟件護城河

把海量內存連起來只是第一步。真正困難的，是「如何高效調度這些共享內存」。這涉及到極度複雜的 OS 支持、工作負載遷移和多租户隔離。這不僅是硬件的事，更是軟件生態的事。關注Rambus (RMBS)。 生態玩家：能夠研發出類似於 Meta TMO（透明內存卸載）底層軟件棧的科技巨頭，誰能做好 Memory Orchestration，誰就能建立起媲美英偉達 CUDA 級別的「內存軟件護城河」。

結語

30年前，互聯網解決的是：「計算機之間的數據共享」；

20年前，雲計算解決的是：「計算資源的彈性分配」；

5年前，大模型解決的是：「大尺度參數的注意力分配」；

1年前，智算中心解決的是：「萬卡集群的算力洪流分配」；

而今天，我們正在攻克 AI 皇冠上的最后一顆釘子：「AI 芯片之間的全域內存共享」。

當你還在為今天某個 AI Agent 運行緩慢而抱怨算力不足時，當你還在盯着英偉達的 K 線圖猜測天花板在哪里時；

另一場更底層、利潤更豐厚的系統級架構變革，可能已經開始了。

AI 的下一階段，也許不再只是「算力戰爭」，而是「Context Memory 戰爭」。

你認為誰會成為 CXL 內存池化時代的下一個「英偉達」？歡迎在評論區留下你的硬核觀點，我們一起探討 AI 基礎設施的下一個十年。

本文內容不構成任何投資建議。

本文來自微信公眾號「PM熊叔」，作者：熊叔，36氪經授權發佈。

尋找下一個「英偉達」：AI 產業鏈革命進入新階段，誰能登上Context內存戰爭的王座？

一、AI 產業正在進入一個詭異的新階段

二、為什麼 AI 突然開始「極度缺內存」？

三、HBM 的致命短板：太快，也太貴

四、NVIDIA：從 FLOPS 轉向 Data Movement

五、CXL 到底改變了什麼？解決「擱淺內存」與「NVLink壟斷」

六、有了 DeepSeek v4 這種算法壓縮，還需要 CXL 嗎？

七、反直覺：CPU 正在迎來「結構性復興」

八、 尋找真正的 Alpha：產業鏈里的「四大關鍵節點」

結語

推薦文章

谷歌持倉驟增超200%！時隔六年后「買回」達美航空，伯克希爾這一次的作業能抄嗎？

期權交易指南 | SOXX跟單「大空頭」輕松賺500刀！英偉達財報日將有大波動？這份高勝率期權策略值得關注

美股機會日報 | 美方將在談判期間豁免對伊石油制裁！特朗普稱將「慢跑式」減持英特爾；百度AI業務收入佔比首次過半

一圖看懂 | AI業務收入佔半壁江山！百度Q1營收超預期達320.8億元；蘿卜快跑訂單量暴增120%至320萬單

華盛早報 | 美以或下周恢復對伊打擊！美股三大期指均跌超1%；SpaceX被曝6月12日上市，馬斯克稱一股不賣；三星今日將重啟勞資談判

一周財經日曆 | 英偉達、沃爾瑪、百度等下周齊放榜！新主席沃什上任后首份美聯儲會議紀要將出爐

時隔九年再訪華！特朗普攜最強商業天團隨行，美股半導體、存儲、航空等七大板塊或迎來利好

AI算力革命下半場，黃仁勛大筆押注光纖！港美股光通信主線行情爆發，哪些重點標的值得關注？

八、尋找真正的 Alpha：產業鏈里的「四大關鍵節點」