熱門資訊> 正文
2026-03-26 18:48
每經記者|岳楚鵬 每經編輯|高涵
從「算力時代」進入「推理時代」,AI對內存的需求激增,大幅提振了全球存儲公司業績和股價。
但谷歌的一篇文章,讓美國和韓國的內存巨頭市值一天蒸發了超900億美元(約合人民幣6200億元)。
當地時間3月24日,谷歌研究院(Google Research)發佈了一篇介紹名為TurboQuant的向量量化壓縮算法的文章,宣稱在不損失準確率前提下,將大模型運行時的關鍵內存佔用壓縮至3比特(原有內存佔用的1/6)。
有市場觀點認為,這一算法將減少AI對內存的需求。
但也有分析師稱,市場的反應説明,很多人對技術「一竅不通」。
當地時間3月24日,谷歌發佈名為TurboQuant的內存壓縮算法。谷歌方面表示,TurboQuant可以在不損失準確性的情況下,將大型語言模型運行時的關鍵部分——鍵值緩存(KV Cache)的內存佔用減少為原有的1/6,同時在英偉達H100GPU上的特定測試中,性能可提升高達8倍。
這一消息迅速觸發市場重估邏輯。
富國銀行分析師Andrew Rocha認為,這項技術可能影響未來對內存容量規格的需求判斷。他在報告中寫道:「市場很快就會重新評估,AI究竟還需要多少內存容量。」
當地時間3月25日,即消息發佈后的第一個美股交易日,存儲芯片板塊在盤中集體跳水。閃迪(SanDisk)股價一度大跌6.5%,收盤時跌幅收窄至3.5%,市值損失36.3億美元。同日,美光科技(Micron Technology)下跌3.4%,市值損失151.66億美元;西部數據(Western Digital)下跌1.63%,市值損失16.64億美元;希捷科技(Seagate Technology)下跌2.76%,市值損失21.4億美元。
負面情緒迅速擴散至亞洲市場。3月26日,韓國SK海力士股價下跌6.23%,市值損失44.18萬億韓元(約合293.8億美元);三星電子也下跌了4.71%,市值損失57.83萬億韓元(約合384.5億美元)。
全球主要內存巨頭市值損失合計超900億美元(約合人民幣6200億元)。
TurboQuant引發震動的核心,在於其精準擊中了大模型的關鍵成本痛點——KV緩存(Key-Value Cache)。
在大模型推理過程中,模型需要保存歷史上下文信息形成KV緩存,以避免重複計算。但隨着上下文窗口增長,KV緩存呈線性膨脹,佔用大量GPU內存。
例如,一個700億參數模型在512用户、2048 Token輸入場景下,僅KV緩存就需約512GB內存,約為模型本體的4倍,已成為商業化部署中的最大成本之一。
傳統解決方案是「量化」,即用低精度數據替代高精度浮點數,但往往犧牲準確率,且還需額外存儲量化參數,抵消部分壓縮收益。
TurboQuant通過兩步優化解決這一問題。
第一步,利用名為PolarQuant的方法,將數據從笛卡爾座標轉換為極座標,類似於「向東走3米,向北走4米」的指令,簡化為「以37度角走5米」。通過隨機旋轉讓數據分佈可預測,從而無需額外量化參數,直接減少內存開銷。
第二步,再利用名為QJL(量化約翰遜-林登施特勞斯變換)的技術,用僅僅1個比特來修正第一步壓縮后產生的微小誤差,確保最終結果的準確性。
谷歌表示,通過該組合方案:
◆KV緩存可壓縮至3比特,內存佔用減少為原有的1/6(降幅約83%);
◆在Gemma、Mistral等模型測試中,性能與未壓縮模型一致,無需額外訓練或微調;
◆在NVIDIA H100測試中,4比特TurboQuant注意力計算速度達到32位未量化的8倍。
儘管市場短期劇烈反應,但機構觀點明顯分化。
首先,這項技術並非首次披露,相關論文早在2025年4月已公開。
其次,有分析指出,谷歌所謂的「8倍性能提升」是與32位未量化模型對比得出,而當前主流已普遍採用4位量化,實際提升或低於宣傳值。
市場分析機構Citrini Research分析師Jukan直言,因TurboQuant導致內存股暴跌,反映出市場對技術「一竅不通」,就像豐田推出混動發動機卻讓石油公司暴跌一樣。
摩根士丹利則指出,TurboQuant技術的影響範圍是有限的。它僅作用於推理階段KV緩存,不影響模型權重,也不涉及訓練環節。因此,這並不意味着整體存儲需求下降到原來的1/6,而是提升單位硬件效率,讓相同的硬件能處理更長的上下文或服務更多用户。
此外,摩根士丹利援引「傑文斯悖論」(Jevons Paradox),該理論認為,效率提升往往不會減少資源消耗,反而會因成本下降而刺激需求增長。就像瓦特改良蒸汽機提高了煤炭燃燒效率,結果卻是全球煤炭需求量的飆升一樣。摩根士丹利認為,通過大幅降低單次查詢的服務成本,TurboQuant能夠讓原本只能在雲端昂貴集羣上運行的模型遷移至本地,有效降低AI規模化部署的門檻,這可能反而能進一步提振整體需求。
Cloudflare首席執行官Matthew Prince將TurboQuant稱為谷歌的「DeepSeek時刻」。類似情況曾在DeepSeek發佈時出現:市場一度擔憂算力需求下降,但最終AI應用爆發,反而推高硬件需求。一開始下跌的英偉達后來再創歷史新高。
從行業規律「內存帕金森定律」來看,TurboQuant節省的內存不會閒置,而會被迅速消耗:每一輪硬件升級或軟件優化釋放出來的存儲余量,很快就會被更長的上下文窗口、更大的批處理規模、更復雜的推理需求所吞噬。換言之,節省下來的空間將被用於服務更多併發請求、處理更長的文檔,或者運行原本因內存不足而無法加載的大模型,甚至可能推動更強大的AI應用在手機等移動設備上成為現實。
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請覈實。據此操作,風險自擔。
封面圖片來源:每經媒資庫