繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌突破性算法震驚硅谷 華爾街激辯:內存需求要降温了?

2026-03-26 12:49

財聯社3月26日訊(編輯 劉蕊)美東時間周二,谷歌發佈了一個炸裂硅谷科技圈的最新算法:超高效AI內存壓縮算法TurboQuant。

谷歌聲稱,這項算法可以在在不損失準確性的前提下,將大型語言模型運行時的緩存內存佔用至少減少6倍、性能提升8倍,本質上,可以讓人工智能在佔用更少內存空間的同時記住更多信息。

這一算法一經發布,美股芯片股應聲下挫。谷歌和華爾街也掀起了一場熱烈討論:當前困擾眾多科技巨頭的內存芯片短缺災難是否可以就此終結了?

TurboQuant是什麼?

先來説説這項TurboQuant算法具體是什麼。

根據谷歌在官方網站的介紹,TurboQuant是一種壓縮方法,它能夠在不損失任何精度的前提下大幅減小模型大小,因此非常適合支持鍵值緩存(KV Cache)壓縮和向量搜索。它通過兩個關鍵步驟實現這一點:

1、高質量壓縮(PolarQuant method):TurboQuant 首先隨機旋轉數據向量。這一巧妙的步驟簡化了數據的幾何結構,使得可以輕松地將標準的高質量量化器分別應用於向量的每個部分。第一階段利用了大部分壓縮能力(大部分比特)來保留原始向量的主要概念和特徵。

2、消除隱藏誤差:TurboQuant 使用少量剩余的壓縮能力(僅1比特)將QJL算法應用於第一階段遺留的微小誤差。QJL 階段充當數學誤差檢查器,消除偏差,從而獲得更準確的注意力評分。

簡單來説,TurboQuant本質上就是在保持AI模型核心結構不變的情況下壓縮AI模型,而且無需預處理或特定的校準數據。

谷歌聲稱,他們使用開源的長上下文模型(Gemma和Mistral ),在包括LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval在內的多項基準測試中,對 TurboQuant、PolarQuant 和KIVI這三種算法進行了嚴格評估。

實驗數據表明,TurboQuant在點積失真和召回率方面均達到了最優評分性能,同時最大限度地減少了鍵值(KV)內存佔用。

上圖展示了TurboQuant、PolarQuant 和KIVI基線算法在問答、代碼生成和摘要等不同任務中的綜合性能得分。

谷歌稱,TurboQuant在所有基準測試中均取得了完美的下游結果,同時將鍵值內存大小至少減少了6倍。

他們計劃在下個月的ICLR 2026會議上展示他們的研究成果,以及展示實現這種壓縮的兩種方法:量化方法PolarQuant和名為QJL的訓練和優化方法。

谷歌迎來DeepSeek時刻?

谷歌的這一算法,令不少人聯想到了HBO電視劇《硅谷》(2014年至2019年播出)中虛構的創業公司Pied Piper。在電視劇中,Pied Piper同樣開發出一種突破性的壓縮算法,能在近乎無損壓縮的情況下大幅減小文件大小。

而現實中的谷歌研究院發佈的TurboQuant技術,同樣致力於在不損失質量的前提下實現極致壓縮,但它應用於人工智能系統的核心瓶頸。

Cloudflare首席執行官Matthew Prince等人甚至稱之為谷歌的DeepSeek時刻,認為其有望像DeepSeek一樣,通過極高的效率收益大幅拉低AI的運行成本,同時在結果上保持競爭力。

他在X上的一篇文章中寫道:「在速度、內存使用、功耗和利用率方面,AI推理還有很大的優化空間。」

內存芯片需求將會降温?

谷歌的這一算法發佈之際,正值全球存儲芯片短缺問題日趨嚴峻的時刻。

由於全球各大巨頭全力興建AI基礎設施,內存需求不斷攀升,供不應求的現象短期內難以緩解。各大科技公司開發人員已經想出各種創新方法來克服或至少應對內存短缺,而谷歌的TurboQuant,目前被科技界人士認為,很可能成為一種給內存需求降温的可持續方案。

這一預期對於致力於建設AI基礎設施的科技巨頭們來説,自然是一件好事。但對於內存芯片廠商們來説,可能結果就不同了。

受到內存需求可能降温預期的影響,美東時間周三,美股存儲芯片板塊在開盤后不久就集體跳水:閃迪一度跌6.5%,美光科技跌4%,西部數據跌超4%,希捷科技跌超5%。

閃迪周三早盤一度大跌 閃迪周三早盤一度大跌

周四亞洲時段,截至發稿時SK海力士下跌4.42%,三星跌3.02%。

Futurum股票研究部門的Shay Boloor聲稱:

「市場認為這對內存類股票來説是一個潛在的不利因素,因為長上下文AI推理每個工作負載可能需要的內存現在可能大幅減少。」

大摩提出相反觀點

不過,也有華爾街巨頭提出了相反的看法。

比如,Lynx Equity Strategies分析師KC Rajkumar就提出,TurboQuant的技術「顛覆性」可能並沒有媒體描述的那麼誇張。

他表示,谷歌所謂的「8倍性能提升」是建立在與老舊的32-bit模型對比之上的,然而當前的推理模型早已廣泛採用4-bit量化數據,因此性能提升幅度並沒有那麼誇張。

此外,摩根士丹利還指出,谷歌TurboQuant技術僅作用於推理階段的鍵值緩存,不影響模型權重所佔用的HBM,也與訓練任務無關。

因此,這並非存儲總需求或硬件總量減少6倍,而是通過效率提升增加單GPU吞吐量——相同硬件可支持4至8倍更長的上下文,或在不觸發內存溢出的前提下顯著提升批處理規模。

更重要的是,摩根士丹利進一步援引了「傑文斯悖論」(Jevons Paradox),來解釋內存需求不會降温的判斷。

傑文斯悖論是經濟學中的一個重要概念,指的是技術進步與資源消耗之間的一種反直覺關係。其定義是:當技術進步提高了效率,資源消耗不僅沒有減少,反而激增。例如,瓦特改良的蒸汽機讓煤炭燃燒更加高效,但結果卻是煤炭需求飆升。

摩根士丹利認為,通過大幅降低單次查詢的服務成本,TurboQuant能夠讓原本只能在雲端昂貴集羣上運行的模型遷移至本地,有效降低AI規模化部署的門檻,這可能反而能進一步提振整體需求。

實際上,Cloudflare首席執行官Matthew Prince等人提到的DeepSeek,就是傑文斯悖論的最鮮明例子:在DeepSeek去年年初剛剛發佈時,市場也一度擔憂AI硬件需求將會降温,但事實是,效率的提升帶來了AI應用的進一步普及,AI硬件需求也再次升溫。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。