熱門資訊> 正文
2026-07-05 11:12
本文來自格隆匯專欄:半導體行業觀察 作者:L晨光
當前,數據中心正面臨一場新危機——不是算力不夠,而是內存太貴。
近年來,隨着大模型推理、內存數據庫、高性能計算等AI業務的規模化快速擴張,正在將數據中心推向內存資源的臨界點。曾經作為服務器標配組件的DRAM,如今已成了最昂貴、最稀缺的基礎設施資源,價格暴漲與供給剛性,成為制約着AI算力部署節奏的關鍵因素。
根據Counterpoint Research的追蹤數據顯示,64GB DIMM內存的價格在2025年第三季度到2026年第一季度之間已上漲3.5倍,且漲勢尚未見頂——預計到2026年第三季度,累計漲幅將達到5倍。
TrendForce的數據更加直觀:2026年第一季度DRAM合約價季增幅度高達93%至98%,帶動全球DRAM產業整體營收環比增長81%,達到970億美元。進入第二季度,漲勢仍未停歇,合約價預計再漲58%至63%。
現貨市場的信號更為直觀:當前服務器級DDR5 RDIMM的現貨單價區間達每GB 27至37美元,僅搭建一個12TB的內存池,純DRAM硬件採購成本就接近50萬美元。
這輪漲價風暴的根源,在於HBM對DRAM產能的持續蠶食。
據相關數據披露,隨着AI訓練與推理對高帶寬內存的需求爆發,HBM在DRAM晶圓產能中的佔比已從2020年的2%攀升至2026年預估的25%。三星、SK海力士、美光三大原廠紛紛將優質產能向高毛利的HBM傾斜,2025至2027年HBM投片量佔整體DRAM投片量的比例分別為18%、22%和約30%。一片HBM晶圓要消耗約三片DDR5的產能,三大原廠主動削減手機、PC的低毛利訂單,把產能全力倒向AI。再考慮到超大規模雲廠商又以多年期長單提前鎖定未來晶圓產出,進一步壓縮了面向服務器領域的標準DRAM供給。
而供給端的剛性,決定了短缺難以在短期內緩解。
先進DRAM製程高度依賴EUV光刻機,單台設備售價高達約2億美元,一座現代化晶圓廠的投資動輒數百億美元,即便一切順利,建設周期也長達數年。產能擴張的速度,遠遠追不上AI需求增長的腳步。
傑富瑞預計,若不計入國產廠商影響,2026年全球存儲bit供給增長僅為7%至8%。DRAM與NAND合計可能出現約15萬至20萬片/月的供給缺口。美光科技在2026第三財季財報中表示,即使行業供應可能在2028年逐步改善,目前仍難以判斷存儲供給何時能夠追上持續增長的需求。
此外,壓力早已從數據中心蔓延至消費端。
Xbox首席執行官Asha Sharma公開表示,過去兩年間內存成本上漲了約五倍,直接導致公司無法生產足夠數量的遊戲主機來滿足市場需求。蘋果也宣佈相繼對iPhone、Mac、iPad等產品進行漲價。
摩根士丹利分析師Shawn Kim團隊更是直言,內存價格飆升與供應稀缺正演變為數字經濟的全面風險,「從AI基礎設施的瓶頸,蔓延至硬件利潤率、設備可負擔性、雲成本、通脹乃至政策層面」。
在服務器物料清單中,DRAM的佔比變化更能説明問題。2023年,DRAM約佔服務器整機成本的50%;到2026年年中,這一比例已攀升至60%至90%,平均約75%。CPU的價格並沒有下降,但在內存價格飛漲的映襯下,CPU的漲價幅度顯得微不足道。
更諷刺的是,花了大價錢採購的內存,實際利用率並不高——Meta等超大規模廠商的實測數據顯示,數據中心的內存普遍僅有約一半容量承載着活躍的「熱數據」,大量冷數據長期佔據着昂貴的DRAM資源。
面對DRAM的昂貴與稀缺,行業玩家開始另闢蹊徑——不再單純堆硬件,而是用技術手段減少對DRAM的依賴。
AMD選擇了最輕量的軟件切入路徑。
2026年6月,AMD宣佈收購內存優化廠商MEXT,其核心目標就是引入通過AI驅動的內存分層技術,將冷數據從高價DRAM下沉到低成本NAND閃存,實現有效內存容量的低成本擴張。
據悉,MEXT成立於2023年,創始團隊大有來頭——聯合創始人兼CEO Gary Smerdon曾是Fusion-io的首席戰略和產品官,將閃存存儲大規模商業化的先行者,十多年前,蘋果和Meta Platforms都是其主要客户。
MEXT針對內存效率瓶頸,推出了一項基於AI的分層內存(memory tiering)技術。這項技術能將低頻率訪問的數據,從昂貴的DRAM移轉至每單位容量成本遠低的NAND型閃存,且不影響應用程序運作。
MEXT的核心產品是預測內存引擎(Predictive Memory Engine),一套完全基於軟件的內存分層方案:它以內存頁為粒度持續監測應用的訪問模式,自動將低頻訪問的冷數據遷移到NAND閃存中——閃存每比特成本僅約為DRAM的1/55;同時通過AI模型學習工作負載的訪問規律,預測即將被調用的數據頁,在應用發起請求前就主動將其預取回到DRAM,讓軟件能夠像直接訪問主存儲器般讀取數據,進而確保效能不受影響。

圖源:Nextplat
整套機制對操作系統和上層應用完全透明,無需修改任何業務代碼,也不需要新增專用硬件,數分鍾即可完成部署。
官方數據顯示,該方案可將系統有效內存容量提升2至4倍,基礎設施整體成本下降約50%。在Neo4j圖數據庫、EDA仿真、影視渲染等典型場景中,DRAM與閃存1:1配比的配置,可達到純DRAM配置約95%的吞吐量,成本卻大幅降低。
MEXT之前針對戴爾服務器以及AWS雲實例進行了對比測試:

戴爾電腦/AWS配備和未配備MEXT擴展內存的對比圖(圖源:Nextplat)
已經在使用MEXT內存擴展時,內存和閃存比例為1:1和1:3時Neo4j圖數據庫的性能和性價比:

圖源:Nextplat
MEXT的思路雖説不是革命性的——內存分層、把冷數據遷到更便宜的存儲介質上,這些概念其實都已經存在了相當長的時間。但以往的技術沒能在數據中心大規模落地,關鍵就在於預測算法的準確度不夠。一旦預判失準,程序在需要數據時才從閃存搬回DRAM,延迟就會直接暴露,性能損失根本無法接受。
MEXT的突破在於用AI模型來干這件事。它的預測內存引擎持續分析內存訪問模式,通過AI判斷哪些數據頁接下來最有可能被用到,然后在應用程序真正發起請求之前,就主動把數據從閃存遷回到DRAM。
對AMD而言,這筆收購補上了自身全棧能力的關鍵一塊。在EPYC CPU、Instinct GPU與ROCm軟件棧之外,MEXT帶來的內存效率層,讓AMD能夠為客户提供從芯片到數據流調度的完整解決方案,既幫助客户降低總擁有成本、減少GPU「等數據」的閒置,也強化了自身在AI基礎設施市場的競爭力。
收購消息公佈當日,AMD股價盤中上漲近7%,市場用投票表達了對這一路徑的認可。
當然也得説一句,MEXT的技術最終能在AMD的數據中心產品中落地到什麼程度,還有待時間來檢驗。NAND閃存和DRAM在延迟上的物理差異是客觀存在的,僅靠軟件層面的AI預測能否真正彌合這道鴻溝,還需要看大規模部署后的實際表現。
Apple:端側大模型,把模型「存進」閃存
當數據中心在為DRAM成本頭疼,消費端也面臨着同樣的約束——手機等終端的DRAM容量極為有限,卻要承載端側大模型的推理需求。蘋果給出的答案,是讓大模型常駐閃存,按需加載到內存。
蘋果最新的AFM 3 Core Advanced是一款200億參數的端側大模型,若按傳統方式全部加載到DRAM,遠超消費級設備的內存上限。蘋果通過稀疏激活架構破解了這一難題:完整模型全部存放在NAND閃存中,推理時不加載全部權重,而是根據輸入提示詞一次性選定本次推理所需的專家模塊,僅將10億到40億參數的工作集調入DRAM。

AFM 3 Core Advanced模型架構示意圖
與傳統MoE模型逐Token切換專家、導致頻繁數據搬運不同,蘋果採用按提示詞粒度的路由機制,配合高比例常駐DRAM的共享專家,大幅減少了閃存與內存之間的交換次數,將加載延迟降到最低。再結合指令級剪枝(IFP)、Transformer層精簡等優化,最終將200億參數模型的DRAM峰值佔用控制在2GB至8GB區間,進一步平衡了內存佔用與計算效率,有效解決了MoE在端側部署時DRAM佔用過大的問題,使其能夠在iPhone等終端設備上流暢運行,實現了「大模型小內存」的端側推理。
這套架構並非臨時攻關的產物。
實際上,早在2024年,蘋果研究團隊就發表了《LLM in a Flash》論文,系統驗證了將大模型參數存放於閃存、按需調度的技術路徑,在降低雲端運算成本的同時,為端側AI應用提供可行的內存架構支撐,可在CPU和GPU上分別實現比朴素加載快4至5倍和20至25倍的推理速度。

當DRAM漲價從產業端傳導至消費電子,這套方案既支撐了端側AI的體驗,也降低了設備對大容量DRAM的依賴。
綜合來看,AMD和Apple的兩大路徑分別針對數據中心與端側同步演進,但共同指向同一結論:AI推理的內存層級正在重構,低頻KV緩存、模型權重及端側數據,將逐步從高價的HBM/DRAM下沉至NAND Flash/SSD層,形成多層次存儲架構。
這一架構轉變正沿產業鏈形成多層次的傳導效應。據Citrini Research梳理,最直接的受益層是NAND原廠。
如果説AMD和蘋果走的是軟件和架構優化的路線,Marvell則選擇了硬件層面的突破,依託CXL高速互連協議,用硬件內聯壓縮技術直接提升物理DRAM的等效容量。
2026年6月,Marvell發佈Structera系列CXL控制器——Structera X(內存擴展控制器)和Structera A(近內存加速器)。兩款芯片都內置了自研的CDB(Compression-Decompression Block)硬件壓縮模塊。
據瞭解,數據寫入DRAM時,CDB模塊會通過定製化LZ4無損算法實時壓縮;讀取時則同步完成解壓。整個過程在內存鏈路中獨立完成,不佔用主機CPU算力,也對上層應用完全透明。根據數據類型不同,1GB物理DRAM可發揮2至3.64倍的等效邏輯容量——在混合數據庫業務場景下,平均壓縮比可達3.64:1,相當於用不到三分之一的物理內存滿足同等業務需求。
除此之外,這套方案還有兩重降本價值:一是舊內存複用,Structera X控制器支持DDR4內存接入,可將退役的DDR4內存納入CXL內存池,減少對昂貴DDR5的新增採購;二是內存池化,通過CXL協議打破單CPU對內存的獨佔限制,讓多臺服務器共享內存資源,消化系統中的閒置容量。
按當前DDR5每GB 27至37美元的現貨價計算,一個12TB的內存池僅DRAM硬件成本就接近50萬美元;若按3倍壓縮比估算,物理DRAM採購量可縮減三分之二,單池就能節省三十余萬美元。
對動輒數萬節點的雲廠商而言,這意味着鉅額的資本開支優化。目前Structera已是業內首款量產的搭載硬件內聯壓縮的CXL控制器,相關技術方案已提交OCP開放計算項目標準化,未來適配範圍將進一步擴大。
Sandisk(閃迪)的解法更加激進——從封裝層面重構AI芯片的內存架構。
Sandisk正聯合SK海力士推動高帶寬閃存(HBF)標準化,試圖讓NAND閃存進一步靠近計算核心,打造HBM與SSD之間的全新存儲層級。
Sandisk的專利方案提出了「GPU下的NAND」架構:將高容量NAND閃存堆疊在GPU或AI加速器的正下方,周圍環繞HBM堆疊,通過大幅縮短數據傳輸距離,提升閃存的訪問帶寬。按照規劃,HBF將與HBM4物理兼容,容量可達同體積HBM的8至16倍,成本則具備顯著優勢,主打長上下文推理、KV緩存、模型權重流式加載等讀取密集型場景。
這種被稱作HBF(High Bandwidth Flash,高帶寬閃存)的技術,定位在HBM和SSD之間。如果把HBM比作攤在桌面上的「參考書」,那基於NAND的HBF就是放在GPU旁邊的「書櫃」。HBM處理必須立即響應的數據,而GPU下方的NAND存儲更大的數據並進行反覆讀寫。
閃迪的目標是開發帶寬接近HBM的HBF,以類似成本提供8到16倍HBM的容量。2026年2月,閃迪與SK海力士正式啟動了HBF規範標準化聯盟。SK海力士貢獻其在HBM中積累的堆疊、封裝與中介層技術,閃迪則帶來NAND和閃存設計的能力。雙方計劃在2026年下半年推出首批HBF樣品,2027年初應用於AI推理設備。目標是構建三級內存架構:HBM負責超低延迟的即時計算,HBF承接大容量、高吞吐的反覆讀取數據,SSD則承載冷存儲,各層級各司其職。
當然,HBF走向大規模商業化仍需跨越多重關卡。計算芯片與NAND堆疊帶來的高熱密度、混合鍵合與複雜佈線的良率挑戰、以及冷熱數據分層調度的軟件生態,都需要時間逐步打磨。
據韓國新榮證券預計,HBF市場有望在2027年形成,到2030年增長至120億美元的規模。
説起來,用閃存來擴展主內存並非新鮮事。
早在2015年,英特爾與美光就聯合推出了3D XPoint存儲技術,其願景恰好命中了今天的行業痛點——打造一種性能介於DRAM和NAND閃存之間、支持字節尋址、成本接近閃存的新型存儲介質,在內存與傳統存儲之間構建一個新的層級。
遺憾的是,3D XPoint最終沒能兑現最初的承諾。
製程研發的滯后讓它的成本一路追平DRAM,性能卻僅比普通閃存快數倍;加之英特爾將其綁定自家Xeon處理器的封閉策略,使其始終無法進入主流市場。最終項目終止,英特爾的閃存業務也被出售給SK海力士,這項曾被寄予厚望的技術,成了存儲行業一段令人唏噓的註腳。
如果英特爾當初沒有放棄3D XPoint,如今的利潤該有多豐厚?可惜歷史沒有如果。
此外,國內一些做存算一體、內存池化解決方案的初創公司,接下來估計也會受到更多關注。畢竟在DRAM價格高企、供給側又被擠佔的大背景下,誰能拿出一套真正靠譜的內存優化方案,誰就可能在資本市場上拿到下一輪入場券。
從3D XPoint的折戟到今天多種路徑並行,存儲行業對內存效率的探索從未止步。
AMD用AI預測來調度冷熱數據、Apple用稀疏激活和閃存存儲來壓縮端側內存佔用、Marvell用硬件壓縮讓物理內存發揮更大效用、閃迪用3D堆疊把NAND搬到GPU腳下——四家公司的技術路徑各不相同,但指向同一個方向:AI推理的內存層級正在重構——熱數據留在DRAM與HBM中保障性能,温冷數據逐步下沉到閃存層承接容量,多層介質協同平衡性能與成本。
DRAM的昂貴,正在把整個行業「逼上了梁山」。但正是這種壓力,催生出了一系列令人眼前一亮的技術創新。
不可否認,閃存與DRAM在延迟上的物理鴻溝始終存在,各類方案的實際表現仍需大規模部署的驗證。但可以確定的是,單純堆砌DRAM來解決問題的時代正在過去,更高效、更分層的內存體系,已是行業前行的新方向。