熱門資訊> 正文
2025-11-01 10:28
本文來自格隆匯專欄:半導體行業觀察 作者:邵逸琦
AI浪潮的洶涌席捲,讓原本以周期波動著稱的存儲市場,進入前所未有的「超級繁榮周期」。在AI大模型訓練和推理的雙重驅動下,算力需求暴增,HBM成為AI服務器的關鍵組件。它通過堆疊多層DRAM,與GPU緊密結合,為AI計算提供更快的數據通道,成為AI時代最炙手可熱的「黃金存儲」。
而HBM的火熱也帶動了整個存儲產業鏈的升溫。三星電子、SK海力士和美光科技等全球三大存儲巨頭,紛紛迎來業績爆發。三星第三季度淨利潤同比增長21%,SK海力士創下公司史上最高季度利潤,美光則實現淨利同比增長三倍。SK海力士也表示,其2025年前的HBM產能已被客户預訂一空。
與此同時,傳統DRAM和NAND芯片也正意外走俏。
由於存儲廠集中擴產HBM,常規內存產能趨緊,市場供需出現再平衡。亞馬遜、谷歌、Meta等數據中心巨頭,爲了擴充AI推理與雲服務能力,正大規模採購傳統DRAM。事實上,在AI推理階段,普通內存依然發揮着不可替代的作用——這讓整個存儲市場呈現「全線緊俏」的局面。
先一步爆火的,是所有智能手機幾乎都會用到的LPDDR。
近日,高通發佈了全新的AI200和AI250數據中心加速器,預計將於2026年和2027年上市。據稱,這兩款新加速器將在運行大規模生成式AI工作負載時,憑藉更高的效率和更低的運營成本,與AMD和英偉達的機架級解決方案展開競爭。此次發佈也重申了高通每年發佈更新產品的計劃。
Qualcomm AI200 和 AI250 加速器均基於專為數據中心 AI 工作負載定製的 Qualcomm Hexagon 神經處理單元 (NPU)。近年來,該公司一直在逐步改進其 Hexagon NPU,因此這些處理器的最新版本已經配備了標量、矢量和張量加速器(採用 12+8+1 配置),支持 INT2、INT4、INT8、INT16、FP8、FP16 等數據格式,以及用於減少內存流量的微塊推理、64 位內存尋址、虛擬化和用於額外安全性的 Gen AI 模型加密。對於 Qualcomm 來説,將 Hexagon 擴展到數據中心工作負載是一個自然的選擇,儘管該公司將為其 AI200 和 AI250 單元設定什麼樣的性能目標還有待觀察。

高通的 AI200 機架級解決方案將是該公司首款由 AI200 加速器驅動的數據中心級推理系統,該系統配備 768 GB LPDDR 內存(對於推理加速器而言,這已是相當可觀的內存容量),並將使用 PCIe 互連實現縱向擴展,並使用以太網實現橫向擴展。該系統將採用直接液冷,每機架功率高達 160 kW,這對於推理解決方案而言也是前所未有的功耗。此外,該系統還將支持企業部署的機密計算,該解決方案將於 2026 年上市。
一年后推出的 AI250 保留了這一架構,但增加了近內存計算架構,有效內存帶寬提升了 10 倍以上。此外,該系統將支持分解推理功能,使計算和內存資源能夠在不同卡之間動態共享。高通將其定位為一款更高效、高帶寬的解決方案,針對大型 Transformer 模型進行了優化,同時保留了與 AI200 相同的散熱、散熱、安全性和可擴展性特性。
但不少人關注的並不是又一家芯片製造商試圖挑戰英偉達的老故事,而是高通在這場AI軍備競賽中選擇的一條截然不同的技術路線——每張加速卡配備高達768GB的LPDDR顯存,約為英偉達H100配置HBM容量的10倍。
高通沒有采用業界主流的昂貴HBM,而是將其在智能手機領域發展完善的低功耗LPDDR技術直接搬上了數據中心,看似「降維」的選擇背后,昭示了目前AI存儲的另一種可能性。
有意思的是,高通並非孤軍奮戰。幾乎同一時間,其他巨頭也紛紛展示了類似的技術路線。
在2025年GTC大會上,GPU霸主英偉達展示了其下一代Vera Rubin超級芯片。這款定於2026年底量產的產品首次在其88核Vera CPU周圍採用了SOCAMM2模塊搭載的LPDDR內存。儘管兩顆Rubin GPU仍然配備了八個HBM4內存堆棧,但LPDDR的出現本身就是一個意味深長的信號——即便是最堅定的HBM擁躉,也開始在系統架構中為LPDDR留出位置。
值得注意的是,英偉達還推出了新的Rubin CPX AI芯片,這是一款專門針對推理優化的"分解式"架構產品,進一步印證了其在推理端的戰略調整。
而在2025年OCP全球峰會上,英特爾發佈了代號"Crescent Island"的數據中心GPU,這款專為AI推理工作負載設計的產品配備了160GB LPDDR5X內存。英特爾首席技術官Sachin Katti直言:"AI正在從靜態訓練轉向實時、無處不在的推理——由智能體AI驅動。擴展這些複雜工作負載需要異構系統,將正確的硅片匹配到正確的任務上。"
這款基於Xe3P微架構、針對風冷企業服務器優化的GPU預計將於2026年下半年開始客户採樣,英特爾明確強調其"功耗和成本優化"的定位,以及"針對推理工作流程優化的大容量內存和帶寬"。
可以説,三大芯片巨頭不約而同地轉向LPDDR,並不是什麼偶然事件,而是整個產業的一次調整,有機構指出,到2030年,推理工作負載的數量將是訓練工作負載的100倍。
業內人士開始將AI目前的瓶頸稱為「馬提尼吸管問題」:計算引擎是酒杯,而數據卻通過吸管流動。無論芯片多麼強大,其性能都受限於數據流入和流出的速度。現代AI推理工作負載越來越受內存限制而非計算限制——隨着模型規模擴大和上下文窗口擴展,挑戰不在於芯片計算速度,而在於如何快速將數據輸送給處理器。
存儲的瓶頸,正是LPDDR方案的價值所在。根據高通引用的研究,LPDDR內存的性價比比HBM高出13倍,使得大型語言模型推理工作負載可以直接在內存中運行,而無需頻繁數據混洗。實際效果是:更快的響應速度、更低的延迟和更低的能耗。高通聲稱其Cloud AI 100 Ultra架構在某些推理工作負載下比同類英偉達配置的功耗低20到35倍。
當然,LPDDR方案並非沒有代價。相比HBM,它存在內存帶寬較低、由於較窄接口導致的更高延迟,以及在24/7高温服務器環境中尚未充分驗證的可靠性等問題。但關鍵在於應用場景的差異。
在訓練場景中,需要極致的內存帶寬來處理海量數據的反向傳播,HBM不可替代,而在推理場景中,模型參數已固定,重點是大容量存儲和高效讀取,LPDDR的容量和成本優勢遠超其帶寬劣勢。
值得關注的是,高通的AI250方案更進一步,引入了基於」近內存計算「的創新內存架構,聲稱可提供超過10倍的有效內存帶寬和更低的功耗,實現了分解式AI推理以高效利用硬件。兩款方案均採用直接液冷,機架級功耗僅160千瓦——在數據中心能源消耗每三年翻一番的當下,這個數字極具吸引力。
而AI存儲技術路線的轉變,也在醖釀一場可能波及全球消費電子市場的供應鏈危機。
首先可以明確是,一個AI推理機架配備的LPDDR內存量級是驚人的。以高通AI200為例,單個機架可能包含數十張加速卡,每張768GB,總內存容量可達數十TB。這相當於數十萬甚至上百萬部智能手機的內存用量。
而這僅僅是一家公司的一款產品。當高通、英特爾、英偉達以及其他潛在進入者(如AMD、博通)都在2026-2027年大規模量產LPDDR方案時,對LPDDR的需求將呈現指數級增長。
目前來看,LPDDR產能並非無限,主要由三星、SK海力士和美光三家供應商控制。數據中心客户的特點是採購量巨大、利潤率高、訂單穩定且長期。相比之下,智能手機市場雖然體量龐大,但單機用量小、價格敏感、季節性波動明顯。
從供應商的角度,優先級顯而易見。這不僅可能導致數據中心訂單擠佔消費電子份額,類似2017-2018年加密貨幣挖礦導致GPU短缺,2020-2021年芯片荒讓汽車製造商停產等,還讓手機廠商面臨LPDDR採購成本上升、交貨周期延長,最終導致中高端手機可能不得不在內存配置上妥協,或者大幅提高售價。
但對其他手機廠商而言,這可能意味着2026-2027年將面臨一個艱難的選擇:要麼接受更高的內存成本,要麼在旗艦機型上降低內存配置,要麼尋找替代方案。
所謂的替代方案,可能就包括了更昂貴的LPDDR6
近日,全球半導體標準制定組織 JEDEC(固態技術協會) 正式發佈了最新標準文檔 JESD209-6,標誌着下一代低功耗內存——LPDDR6 正式登上舞臺。這不僅是LPDDR系列的重大進化,也是首個在官方規範中提及 DDR6 的標準。距DDR5標準發佈已過去五年,隨着AI算力、移動設備與邊緣智能的迅猛發展,業界亟需一種兼具高帶寬、低功耗與高可靠性的全新內存架構,LPDDR6的誕生正當其時。
JEDEC表示,LPDDR6在性能、能效、安全性和穩定性方面均實現了系統性升級。其核心架構由傳統的雙通道(DDR4的單64位通道在DDR5時代被拆分為兩個獨立的32位子通道)演進為 四個24位子通道,實現更高的並行度與更低的訪問延迟。此外,LPDDR6在功耗管理上進行了深度優化,不僅進一步降低了工作電壓,還引入了 DVFSL(低功耗動態電壓頻率調節) 等新機制,可根據運行負載動態調節功耗,以延長電池續航。

在性能指標上,LPDDR6的數據速率可達 10,667至14,400 MT/s,有效帶寬約為 28.5至38.4 GB/s。這一速度已經超越目前DDR5-12054的超頻紀錄,為AI手機、輕薄筆電與車載智能系統提供了更充裕的帶寬與響應能力。
作為全球半導體標準的制定核心,JEDEC成員涵蓋了從芯片設計到製造測試的整個產業鏈。此次LPDDR6標準發佈后,Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK海力士 等企業已率先表態支持。這意味着新一代LPDDR6有望在短時間內被行業廣泛採用。雖然目前JEDEC尚未公佈面向桌面平臺的DDR6最終規範,但官方表示相關標準也將在年內發佈。
從時間節奏來看,DDR5在2020年發佈后約一年便進入量產市場,LPDDR6預計也將遵循類似路徑。尤其在主要廠商計劃於2025年起逐步停產DDR4的背景下,LPDDR6的到來正是新舊標準更迭的關鍵節點。
值得一提的是,Synopsys 已率先完成基於 臺積電N2P工藝節點 的 LPDDR6 IP「硅驗證(silicon bring-up)」。所謂「硅驗證」是芯片設計中首次上電測試的重要階段,標誌着其核心設計已具備可量產的技術成熟度。該IP包含控制器(Controller)與物理層接口(PHY)兩大部分,前者負責JEDEC協議解析與低功耗管理,后者則基於N2P的金屬堆疊與I/O庫構建,實現更高信號完整性與密度。
得益於N2P在性能、功耗與面積(PPA)上的領先表現,Synopsys的LPDDR6 IP帶寬可達 86 GB/s,並具備更高的能效與更緊湊的物理尺寸,為AI終端與高能效計算平臺提供強力支撐。JEDEC標準的理論峰值甚至可達 115 GB/s,這意味着與LPDDR5相比,新一代標準在速率與能耗表現上均實現了跨代式飛躍。
隨着LPDDR6預計在明年正式進入量產階段,在未來可能會取代LPDDR5,成為智能手機的標配,只不過其售價也可能愈發水漲船高。
這場從HBM到LPDDR的轉向,本質上是AI產業從不計成本的技術競賽走向精打細算的商業化部署的標誌。
英偉達的CUDA軟件棧在AI訓練領域仍然無可匹敵,開發者鎖定效應極強。但推理領域的情況完全不同:模型已經訓練完成,只需要高效運行,開發者鎖定遠沒有那麼強大,而且對價格極為敏感。
這為高通、英特爾等公司以全新方式競爭打開了大門。它們並非試圖製造更大的GPU來正面挑戰英偉達,而是着眼於一個現實:大多數AI模型無需每天重新訓練,只需要高效運行且能在任何地方運行。
高通的優勢正在於此,其將移動領域的基因與數據中心級可擴展性相結合。英特爾也在強調其從AI PC到數據中心和工業邊緣的端到端能力,以及與開放計算項目(OCP)等社區的協作。
未來的AI硬件市場可能呈現明顯的分層結構,訓練市場中HBM依然不可替代,英偉達/AMD繼續主導,但在推理市場中LPDDR有望異軍突起異軍突起,成為新一代AI芯片的選擇。
但LPDDR的崛起,可能需要全球數十億智能手機用户來承擔背后的代價。當數據中心開始攫取本屬於消費電子的LPDDR供應,我們或許將見證一個諷刺的場景:訓練AI的超級計算機裝備着最尖端的HBM,運行AI服務的推理集羣使用着」手機內存「,而真正的手機用户卻可能在2026-2027年面臨內存短缺、價格上漲或配置縮水。
這就是技術進步的弔詭之處:AI推理的效率革命,可能正在以犧牲消費者利益為代價。當芯片巨頭們為數據中心的TCO優化而歡呼時,普通用户手中的智能手機,正在成為這場產業變革中最脆弱的一環。