一句话总结

Google 发布了一项名为 TurboQuant 的新技术,可以把大模型运行时的”草稿纸”(KV Cache)压缩到原来的 1/6,同时速度提升 8 倍,而且完全不影响答案正确性。


什么是 KV Cache?

要理解 TurboQuant,先得知道什么是 KV Cache

打个比方

想象你是个老师,正在批改作业。批改时你需要:

  1. 看到当前这道题
  2. 回顾学生之前做的所有题(因为题目可能有关联)

KV Cache 就相当于老师的”草稿纸”,记录了学生之前每道题的做法,这样批改当前题目时不用翻回去重新算。

大模型也一样

大模型生成文字时:

  • 每生成一个新字/词
  • 需要回顾之前所有生成的内容
  • 把”之前怎么想的”存起来,这就是 KV Cache

问题来了

对话越长,这张”草稿纸”越大:

  • 10 句话:草稿纸 1 张 A4 纸
  • 1000 句话:草稿纸变成一摞纸
  • 10000 句话:草稿纸塞满一整个柜子

草稿纸太大,放不下了——这就是大模型推理的”内存墙”问题。


业界之前的解决方案

为了控制 KV Cache 的大小,行业想了两招:

1. 滑动窗口注意力

就像老师只记住最近 20 道题的解题思路,之前的就”忘”了。

2. 线性注意力

把所有历史解题思路压缩成一个”总结”,不管做多少题,总结大小不变。


TurboQuant 的创新:压缩”草稿纸的精度”

KV Cache 是个 3D 立方体,有三个维度:

  • (上下文长度):对话越长越长 → 滑动窗口解决了
  • (状态大小):历史压缩 → 线性注意力解决了
  • (数据精度):现在主流是 16 位(FP16/BF16)

TurboQuant 就是来压缩”宽”的——把精度从 16-bit 压到 3-bit!

为什么压到 3-bit 很难?

正常压缩图片或音频到 3-bit(每个数据点只用 3 个二进制位),会严重失真。就像把高清照片压成马赛克。

Google 的 TurboQuant 通过三个数学技巧,实现了近乎无损的压缩

技巧作用
随机旋转把数据分布”捋顺”,让相似的值聚在一起
极坐标映射从直角坐标系转到极坐标,大幅减少存储”边界”信息
QJL 纠错用 1 bit 做纠错,消除压缩带来的误差

实际效果

指标效果
KV Cache 大小减少 6 倍
推理速度提升 8 倍(H100 实测)
精度损失零损失( Needle-in-a-Haystack 测试满分)

已经有人实现了

  • vLLM:Mitko Vasilev 在一块 HP ZGX(USB 充电器大小)上塞进了 400 万 KV-cache tokens
  • MLX(Apple Silicon):Qwen3.5-35B 模型上测试,2.5-bit 压缩后 KV cache 缩小 4.9 倍

为什么速度反而快了?

等等,数据变小了,但计算精度还在压缩和解压缩,这不应该更慢吗?

关键在显存带宽,不在算力。

现在的 GPU 就像一个仓库:

  • 算力:仓库的加工能力(很强,溢出了)
  • 带宽:仓库的搬运能力(不够用,是瓶颈)

TurboQuant 把 16-bit 数据压到 3-bit,相当于:

  • 本来要搬运 16 袋水泥
  • 现在只要搬 3 袋
  • 仓库的加工能力本来就够用,所以搬运时间大幅减少,整体速度就快了

争议和质疑

1. 论文是”炒冷饭”?

TurboQuant 的论文 2025 年 4 月就挂 arxiv 了,Google 官方博客 2026 年 3 月 25 日才大力宣传。Reddit 网友吐槽:“快一年了才拿出来说。“

2. 真的是”无损”吗?

有技术人员指出,Google 宣称的”零精度损失”可能有水分:

  • 测试可能经过挑选
  • 形式化推演有偷换概念的地方
  • 实际落地效果可能打折扣

3. 存储股票因此下跌

TurboQuant 公布后,有人解读为”以后不需要那么多显存了”,导致三星、SK 海力士、美光等存储公司股价下跌。但也有分析师认为这是过度反应。


对普通用户意味着什么?

场景影响
本地跑大模型同样配置可以跑更长的上下文
API 调用成本推理成本下降,收费可能降低
并发能力同样的 GPU 能服务更多用户
长对话场景万字以上的对话变得可行

技术细节(三句话版本)

  1. 随机旋转:把 KV 向量换个角度”摆”,让数据分布更容易压缩
  2. 极坐标映射:用”距离+角度”代替”x,y,z坐标”,省存储
  3. QJL 纠错:1 bit 的额外信息,修复压缩造成的误差

论文信息

  • 标题:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
  • 作者:Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni(Google Research)
  • arXiv:2504.19874
  • 会议:ICLR 2026(已接收)
  • 发表时间:2025 年 4 月(arXiv),2026 年 3 月(官方博客)

总结

TurboQuant 是 Google 在大模型推理优化方面的重要突破,核心贡献是:

把 KV Cache 从 16-bit 压到 3-bit,内存减少 6 倍,速度提升 8 倍,而且几乎不影响答案质量。

如果这项技术成熟落地,未来在消费级 GPU 上跑千亿级大模型、多轮超长对话的成本都会大幅下降。

当然,也有人质疑 Google 有夸大宣传的成分,实际效果还需要更多独立验证。


整理自 X/Twitter 讨论、Reddit 评价及 arXiv 论文摘要
时间:2026 年 3 月 26 日