简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

美光连跌五日!存储“鬼故事”:谷歌推出压缩算法TurboQuant!内存占用降6倍

2026-03-26 11:44

谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法TurboQuant。

周三美股开盘后,在大盘情绪尚可的背景下,存储板块却反向走弱。美光科技周三跌3%,已连跌五日;闪迪、西部数据和希捷科技也一同下跌。

根据谷歌介绍,TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。TurboQuant可在无需重新训练或微调模型的情况下,将键值缓存压缩至3bit精度,同时基本保持模型准确率不受影响。对包括Gemma、Mistral等开源模型的测试显示,该技术可实现约6倍的键值缓存内存压缩效果。

此外,在英伟达H100加速器上的测试结果显示,与未量化的键向量相比,该算法最高可实现约8倍性能提升。研究人员也表示,这项技术的应用不局限于AI模型,还包括支撑大规模搜索引擎的向量检索能力。

谷歌计划于4月的国际学习表征会议(ICLR 2026)上展示TurboQuant技术。

分析师:建议在存储芯片回调中买入

谷歌的TurboQuant采用3位压缩技术用于AI模型。然而,Lynx Equity Strategies分析师KC Rajkumar在给客户的报告中质疑这一进展的重要性。

"向量量化并非新概念,因为大语言模型已经从原始训练模型中的32位数据发展到如今推理模型中使用的4位数据,"Rajkumar写道。

该分析师对第三方科技博客对该技术的描述提出异议,称其报道过度夸大。Rajkumar反驳了8倍改进的说法,指出这一比较是相对于较旧的32位模型,而非目前使用的4位量化模型。

"虽然可能存在改进,但我们认为并非8倍,"Rajkumar表示。

该分析师指出,随着推理中令牌上下文长度的增加,AI供应商需要创新来解决瓶颈问题。然而,Rajkumar表示,由于供应限制,这并不会降低未来三到五年对内存和闪存的需求。

"先进的压缩技术只是减少瓶颈,而不会破坏对DRAM/闪存的需求,"Rajkumar写道。

Lynx Equity Strategies维持对美光科技$700的目标价,并重申买入评级。"我们建议在今日谷歌消息引发的回调中买入,"该分析师补充道。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。