谷歌发布超高效AI内存压缩算法TurboQuant

时间：2026-03-27 15:18:26

关键字：谷歌 AI 人工智能

手机看文章

扫描二维码
随时随地手机看文章

[导读]谷歌研究院(Google Research)确实于美东时间3月25日(周二)正式发布了名为 TurboQuant 的全新AI内存压缩算法。

谷歌研究院(Google Research)确实于美东时间3月25日(周二)正式发布了名为 TurboQuant 的全新AI内存压缩算法。

这项技术旨在解决大语言模型在推理过程中面临的内存瓶颈问题，因其突破性的性能表现，在科技圈和资本市场都引起了巨大反响。

极致压缩，内存占用锐减：该算法通过创新的向量量化技术，能够将AI推理时关键的“键值缓存”(KV Cache)内存占用压缩至原来的六分之一(即减少约83%)。

推理速度飙升：在英伟达H100 GPU上的测试显示，采用TurboQuant技术后，AI的推理速度最高可以提升8倍。

零精度损失：最关键的突破在于，这项技术能够在实现极致压缩的同时，保证模型在“大海捞针”等长上下文测试中实现零精度损失，不影响AI的回答质量。

无需重新训练：TurboQuant的一大优势是其“免训练”(training-free)特性。这意味着现有的AI模型(如Gemma、Mistral等)无需进行耗时的重新训练或微调，即可直接应用该技术，极大地降低了部署和升级成本。

他们计划在下个月的ICLR 2026会议上展示他们的研究成果，以及展示实现这种压缩的两种方法：量化方法PolarQuant和名为QJL的训练和优化方法。

TrendForce集邦咨询: 受谷歌高速互连架构带动，预估2026年800G以上光收发模块占比将突破60%