繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

尋找下一個「英偉達」:AI 產業鏈革命進入新階段,誰能登上Context內存戰爭的王座?

2026-05-11 21:28

【導語】

最近在做 Multi-Agent(多智能體)投研系統時,我遇到了一個極其抓狂的問題: 

一份真正複雜的研報,經常要跑幾個小時,甚至整整一晚上。 當 Tokens 消耗到數萬級別之后,響應時間會急劇上升,複雜任務甚至可能卡到一小時以上。 

尤其是在以下場景同時發生時,延迟會變得格外明顯: 

  • 多 Agent 協同
  • 工具鏈調用
  • 長上下文推理
  • 結構化對抗分析

一開始,我以為問題只是單純的「算力不夠」,準備咬牙升級LLM的套餐,但是我的套餐的請求符合並沒有打滿,也沒有鏈接的報錯。問題可能AI面對超長Context導致的系統級別的阻塞,而且可能已經不是 GPU 本身了。 

而是:「內存」,更準確地説,是大模型卡在了「數據搬運(Data Movement)」。 

而最近資本市場和 AI 基礎設施的變化,其實已經開始提前反映這一點。 

一、AI 產業正在進入一個詭異的新階段

過去兩年,整個市場都在瘋狂購買 GPU。 但現在,一線工程師發現了一個非常微妙的變化:在很多 AI 系統里,GPU 的算力還沒跑滿,內存已經先崩了,於是Context管理成爲了Harness Engineering的重要組成。

這背后其實意味着,AI 的核心瓶頸,正在發生歷史性轉移: 從Compute-centric(以計算為中心)轉向Memory-centric(以內存與數據移動為中心)

如果説 2023-2025 的主線是「GPU 算力革命」; 那麼 2026-2028 很可能進入「內存架構革命(Memory Architecture Revolution)」。 

而這場革命最重要的關鍵詞,就是:CXL(Compute Express Link)。 

二、為什麼 AI 突然開始「極度缺內存」?

2026年5月,整個華爾街都被"存儲芯片"的瘋狂暴漲徹底打蒙了。 

美光科技(MU):過去12個月股價狂飆 700%,市值一舉突破8400億美元;西部數據(WDC):一年內暴漲 900%;閃迪(SNDK):更是上演了上市以來狂漲 3300% 的終極造富神話,單日暴漲16%直接突破1560美元。       

無數踏空的投資者在深夜懊悔:曾經錯過了英偉達,為什麼錯過了這波利潤更豐厚的內存狂歡?

答案很簡單,思維依然停留在 "AI = 算力 = GPU" 的舊共識里。 

這波存儲股的徹底爆發,只是向市場揭開了一個殘酷真相的冰山一角: AI 系統真正面臨的致命瓶頸,早已經不是算力了,而是 Memory Wall(內存牆)。

很多人看到 NVIDIA 新一代 GPU 時,會有一種錯覺: 「192GB 的 HBM 已經非常龐大了,為什麼還不夠用?」 

問題在於:AI 推理階段真正像黑洞一樣吞噬內存的,往往並不是模型本體,而是 KV Cache。

這是現在二級市場最容易忽略的核心問題。 

什麼是 KV Cache?簡單説: 大模型在推理時,每生成一個 Token,都會保存對應的 Key 和 Value,用於后續的 Attention 計算。 

上下文越長,緩存越大。 

而現在 AI 行業正在同時發生的趨勢: 長上下文、Multi-Agent、持續會話、實時推理、多用户併發……這些全部都會導致 KV Cache爆炸式增長。 

一個 70B 級別的模型,如果跑百萬 Token 上下文,再疊加高併發,KV Cache 很容易瞬間膨脹到數百 GB,甚至 TB 級別。 

問題來了:你不可能把所有數據都塞進 HBM 里。 

三、HBM 的致命短板:太快,也太貴

最近內存股漲價的核心動力是HBM(高帶寬內存), 

HBM確實很強,但它更像是城市里的「頂級學區房」。 

它有幾個致命問題: 

  • 成本極高
  • 功耗極高
  • 容量擴展極其困難
  • 嚴重受制於 CoWoS 這種先進封裝的產能

頂級學區房非常好,但不可能讓所有數據都住進去,否則 AI 公司的推理成本會直接失控。 

於是,AI 系統被迫進入「分層內存時代」。 

未來的 AI 內存架構,大概率會變成這樣: 

  • Tier 0(HBM):超快、超貴(存放最核心即時計算數據)
  • Tier 1(DDR5 / CXL Memory):大容量、高性價比
  • Tier 2(NVMe / SSD):更大、更慢

這意味着,未來 AI 系統的核心大考,不再是單純的「你有沒有買到 GPU」,而是:「哪些數據必須放在最快內存里?」以及「如何降低數據在各層之間的搬運成本?」

四、NVIDIA:從 FLOPS 轉向 Data Movement

過去幾年,整個 AI 行業都在拼 FLOPS(每秒浮點運算次數)、拼 GPU 數量。 

但現在,如果你仔細觀察英偉達最近的動作,你會發現他們開始越來越頻繁地強調: 

  • Context Memory
  • Shared Memory
  • Rack-scale Architecture(機架級架構)

在 GTC 2026 上,NVIDIA 已經明確提出了POD-wide context memory(即整個 Rack/POD 級別的共享上下文內存)。 

英偉達的Grace-Blackwell (GB200)架構,本質上就是把 CPU 和 GPU 通過超高帶寬的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是爲了管理 HBM 和共享內存池設計的。它不賣單顆 CPU,它賣的是一整套「CPU+GPU+內存織物」的全棧解決方案。 

這意味着,AI 基礎設施已經開始從GPU-centric轉向Context-centric。大家終於意識到:算力再強,數據搬不動也是白搭。

五、CXL 到底改變了什麼?解決「擱淺內存」與「NVLink壟斷」

過去幾十年的服務器架構是高度綁定的: CPU 綁定自己的 DRAM,GPU 綁定自己的 HBM。各自為戰,彼此之間很難靈活借用。 

這會導致一個極度浪費的現象: GPU-A 的 HBM 已經被 KV Cache 撐爆了,而旁邊 GPU-B 的內存卻在閒置。 因為無法動態共享,這些閒置的內存就變成了極其昂貴的「Stranded Memory(擱淺內存)」。 

上面提到的英偉達NVLink-C2C不是已經解決了嗎?為什麼還需要 CXL?」

這是一個極佳的問題。答案是:它們根本不在一個生態位。 

NVLink 是英偉達為自己修的「私家高鐵」。極快,但你必須買它的全套車票,把所有的計算都死死鎖定在英偉達的封閉黑盒里。它解決的是大模型暴力計算的「算力上限」。 

而 CXL(Compute Express Link),是 AI 時代的「通用貨運網絡」。它是由 Intel、AMD、Google、Meta 等全行業「復仇者聯盟」共同推行的開放標準。 它的核心使命不是幫某一家公司跑贏算力,而是解決全行業共同的噩夢——內存牆。它解決的是 AI 商業化落地的「成本下限」。 

CXL 帶來了一個極其關鍵的概念:Memory Pooling(內存池化)。 

過去,每台服務器像一棟獨立別墅,自帶水塔; 未來,通過 CXL,整個數據中心將變成一個共享水網系統。 不管你是誰家的 CPU,誰家的 GPU,大家都可以動態共享一個巨大的外部內存池。誰渴了,水(內存資源)就流向誰。 

最終,雲端算力的內存可以靈活支取,按需按量分配。 

六、有了 DeepSeek v4 這種算法壓縮,還需要 CXL 嗎?

看到這里,很多懂點技術的朋友可能會拋出一個尖鋭的問題: 

「前陣子 DeepSeek v4 出來,不是通過首創的 MLA(多頭潛在注意力機制)架構, 硬生生把 KV Cache 的顯存佔用砍掉了 80% 到 90% 嗎?」 

既然算法能在物理級別把內存壓縮得這麼小, 為什麼還需要搞極其複雜的 CXL 硬件池化? 

這是一個極好的問題。 但真相是:DeepSeek 的算法壓縮,與 CXL 的硬件池化,絕非互斥關係。而是拯救 AI「內存牆」的兩條完美交叉線。 

第一,DeepSeek 本質上是「用極致的計算和帶寬,換取內存空間」。MLA 架構把龐大的 KV 矩陣壓縮成極小的潛在向量(Latent Vector)。 但在計算時,模型必須極高頻地「解壓縮」還原。 這依然要求極其恐怖的顯存帶寬(Bandwidth)和互聯速度。 算法壓縮到了極限,是對數據傳輸寬帶的極度壓榨。 

第二,物理極限與系統級死鎖。即使 DeepSeek 砍掉了 90% 的 KV Cache。 當你在跑數百萬 Token 的逆天長文本、且應對數萬併發時, 剩下的那 10% 依然會撐爆單機 HBM 的天花板。 更致命的是: GPU-A 壓縮得再小,它省下來的閒置內存,依然無法給旁邊的 GPU-B 使用。 

所以,未來的終局形態是:算法(向內壓縮)負責「節流」;CXL(向外池化)負責「開源」。

這兩者的「雙劍合璧」,纔是徹底跨越「Context Memory 戰爭」的終極解法。 

七、反直覺:CPU 正在迎來「結構性復興」

看到這里,你可能會產生一個錯覺:AI 時代,傳統的 CPU 是不是徹底淪為打雜的了? 

恰恰相反。在 CXL 硬件池化和 DeepSeek  v4高效算法的雙重催化下,CPU 的重要性正在被史詩級重估。

如果説 GPU 是 AI 時代的「暴力肌肉」。 那麼在這個龐大的 CXL 共享內存網絡里,CPU 正在重新找回它「神經中樞」的王座。

原因很簡單: 

第一,誰來當海量內存池的「超級交警」?在 CXL 時代,所有的 GPU 和海量的外部內存連成了一片網。 GPU A 的閒置內存怎麼動態借給 GPU B?熱數據什麼時候切入 HBM? 這種極其複雜的Memory Orchestration(內存編排調度)和多租户一致性管理,GPU 根本做不來。它必須依靠擁有極高 I/O 帶寬和複雜調度邏輯的「重型 CPU」來執行。 

第二,算法壓縮倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的體積壓縮了,我們為什麼非要把它們全擠在昂貴的 GPU HBM 里? 我們完全可以把這些海量的上下文記憶,存放在由 CPU 掌控的龐大 DDR5/CXL 內存池中。GPU 只管埋頭計算,CPU 負責極速調取和維護這些上下文。

AI 的下半場,對 CPU 的要求並沒有降低,而是發生了極其深刻的「職能升級」。那些擁有強大調度架構的高級 CPU,價值將面臨重構。 

目前的趨勢是:ARM 正在全面壓倒 x86。 

功耗是死穴:AI 機櫃的功耗已經逼近物理極限(單櫃 120kW+)。x86 的複雜指令集在能效比上天生吃虧,而 ARM 架構在處理高頻、並行的 I/O 調度時,能省下鉅額電費。 

定製化是絕殺:雲巨頭(AWS, Google, Microsoft)現在都在自研 CPU。基於 ARM 的 IP 授權,他們可以像搭積木一樣,定製出最適合 CXL 鏈路和 DeepSeek 算法的私有 CPU(如 Graviton 系列)。 

未來的王者,不再是那個「算力最強」的,而是那個「最懂得調度內存」的。 

八、 尋找真正的 Alpha:產業鏈里的「四大關鍵節點」

當 AI 基礎設施的重心發生偏移, 真正的利潤池, 將開始向「Memory Movement(數據搬運)」瘋狂遷移。 

不要再死死盯着 GPU 和 CUDA。 在即將到來的 CXL 內存池化時代, 這四個環節,纔是未來 3 年最硬核的「賣水人」: 

1. Retimer(高速信號修復芯片):最先爆發的物理剛需

隨着 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍, 高速信號在物理主板上極易衰減失真。 Retimer 就像是內存長途運輸線上的「加油站與放大器」。 在未來的機架級(Rack-scale)AI 服務器中, 它是根本繞不開的物理標配。 

核心標的:Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch(價值咽喉):AI 時代的「內存交換機」

未來,GPU 不再固定「焊死」在某塊內存上。 而是通過 CXL Switch 動態連接整個內存織物(Memory Fabric)。 誰能實現超低延迟、高一致性的內存交換, 誰就扼住了 AI 數據網絡的咽喉。 這是整個硬件鏈條中溢價最高、壁壘最深的環節。 

核心標的:博通 (AVGO)、Marvell (MRVL)。 

3. 被重估的 CPU 層:統籌全局的「總指揮部」

在傳統認知里,CPU 在 AI 時代邊緣化了。 錯!在 CXL 時代,CPU 成了統御龐大內存池的「總調度交警」。 現在的 Alpha,不再看 CPU 的單核算力, 而是看它的I/O 通道數、低功耗,以及內存調度效率。 

藍圖統治者:Arm Holdings (ARM)。雲巨頭拋棄 x86 自研芯片(如 AWS Graviton),統統要給 ARM 交底座授權費。

定製化推手:世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設計 AI 芯片的幕后刀客。

x86 的最后尊嚴:AMD (AMD)。憑藉極高的 I/O 通道數和激進的 CXL 擁抱策略,EPYC 依然是公有云上的硬通貨。

反直覺的贏家:Intel (INTC)。哪怕輸掉核心,憑藉獨家的 EMIB 先進封裝(IFS 代工),依然是雲巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration:真正的軟件護城河

把海量內存連起來只是第一步。 真正困難的,是「如何高效調度這些共享內存」。 這涉及到極度複雜的 OS 支持、工作負載遷移和多租户隔離。 這不僅是硬件的事,更是軟件生態的事。 

核心標的:Rambus (RMBS)。 

生態玩家:能夠研發出類似於 Meta TMO(透明內存卸載)底層軟件棧的科技巨頭,誰能做好 Memory Orchestration,誰就能建立起媲美英偉達 CUDA 級別的「內存軟件護城河」。 

當 AI 基礎設施的重心發生偏移, 真正的利潤池, 將開始向「Memory Movement(數據搬運)」瘋狂遷移。 

不要再死死盯着 GPU 和 CUDA。 在即將到來的 CXL 內存池化時代, 這四個環節,纔是未來 3 年最硬核的「賣水人」: 

1. Retimer(高速信號修復芯片):最先爆發的物理剛需

隨着 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍, 高速信號在物理主板上極易衰減失真。 Retimer 就像是內存長途運輸線上的「加油站與放大器」。 在未來的機架級(Rack-scale)AI 服務器中, 它是根本繞不開的物理標配。 

核心標的:

2. CXL Switch(價值咽喉):AI 時代的「內存交換機」

未來,GPU 不再固定「焊死」在某塊內存上。 而是通過 CXL Switch 動態連接整個內存織物(Memory Fabric)。 誰能實現超低延迟、高一致性的內存交換, 誰就扼住了 AI 數據網絡的咽喉。 這是整個硬件鏈條中溢價最高、壁壘最深的環節。 我們可以關注博通 (AVGO)、Marvell (MRVL)。 

3. 被重估的 CPU 層:統御全局的「總指揮部」

在傳統認知里,CPU 在 AI 時代邊緣化了。 錯!在 CXL 時代,CPU 成了統御龐大內存池的「總調度交警」。 現在的 Alpha,不再看 CPU 的單核算力, 而是看它的I/O 通道數、低功耗,以及內存調度效率。 

藍圖統治者:Arm Holdings (ARM)。雲巨頭拋棄 x86 自研芯片(如 AWS Graviton),統統要給 ARM 交底座授權費。

定製化推手:世芯電子 、Marvell、博通。他們是幫巨頭們代工設計 AI 芯片的幕后刀客。

x86 的最后尊嚴:AMD (AMD)。憑藉極高的 I/O 通道數和激進的 CXL 擁抱策略,EPYC 依然是公有云上的硬通貨。

反直覺的贏家:Intel (INTC)。哪怕輸掉核心,憑藉獨家的 EMIB 先進封裝(IFS 代工),依然是雲巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration:真正的軟件護城河

把海量內存連起來只是第一步。 真正困難的,是「如何高效調度這些共享內存」。 這涉及到極度複雜的 OS 支持、工作負載遷移和多租户隔離。 這不僅是硬件的事,更是軟件生態的事。 關注Rambus (RMBS)生態玩家:能夠研發出類似於 Meta TMO(透明內存卸載)底層軟件棧的科技巨頭,誰能做好 Memory Orchestration,誰就能建立起媲美英偉達 CUDA 級別的「內存軟件護城河」。 

結語

30年前,互聯網解決的是:「計算機之間的數據共享」; 

20年前,雲計算解決的是:「計算資源的彈性分配」; 

5年前,大模型解決的是:「大尺度參數的注意力分配」; 

1年前,智算中心解決的是:「萬卡集群的算力洪流分配」; 

而今天,我們正在攻克 AI 皇冠上的最后一顆釘子:「AI 芯片之間的全域內存共享」。 

當你還在為今天某個 AI Agent 運行緩慢而抱怨算力不足時, 當你還在盯着英偉達的 K 線圖猜測天花板在哪里時; 

另一場更底層、利潤更豐厚的系統級架構變革,可能已經開始了。 

AI 的下一階段,也許不再只是「算力戰爭」,而是「Context Memory 戰爭」。 

你認為誰會成為 CXL 內存池化時代的下一個「英偉達」?歡迎在評論區留下你的硬核觀點,我們一起探討 AI 基礎設施的下一個十年。 

本文內容不構成任何投資建議。

本文來自微信公眾號「PM熊叔」,作者:熊叔,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。