一句话总结
Google 发布了一项名为 TurboQuant 的新技术,可以把大模型运行时的”草稿纸”(KV Cache)压缩到原来的 1/6,同时速度提升 8 倍,而且完全不影响答案正确性。
什么是 KV Cache?
要理解 TurboQuant,先得知道什么是 KV Cache
打个比方
想象你是个老师,正在批改作业。批改时你需要:
- 看到当前这道题
- 回顾学生之前做的所有题(因为题目可能有关联)
KV Cache 就相当于老师的”草稿纸”,记录了学生之前每道题的做法,这样批改当前题目时不用翻回去重新算。
大模型也一样
大模型生成文字时:
- 每生成一个新字/词
- 需要回顾之前所有生成的内容
- 把”之前怎么想的”存起来,这就是 KV Cache
问题来了
对话越长,这张”草稿纸”越大:
- 10 句话:草稿纸 1 张 A4 纸
- 1000 句话:草稿纸变成一摞纸
- 10000 句话:草稿纸塞满一整个柜子
草稿纸太大,放不下了——这就是大模型推理的”内存墙”问题。
业界之前的解决方案
为了控制 KV Cache 的大小,行业想了两招:
1. 滑动窗口注意力
就像老师只记住最近 20 道题的解题思路,之前的就”忘”了。
2. 线性注意力
把所有历史解题思路压缩成一个”总结”,不管做多少题,总结大小不变。
TurboQuant 的创新:压缩”草稿纸的精度”
KV Cache 是个 3D 立方体,有三个维度:
- 长(上下文长度):对话越长越长 → 滑动窗口解决了
- 高(状态大小):历史压缩 → 线性注意力解决了
- 宽(数据精度):现在主流是 16 位(FP16/BF16)
TurboQuant 就是来压缩”宽”的——把精度从 16-bit 压到 3-bit!
为什么压到 3-bit 很难?
正常压缩图片或音频到 3-bit(每个数据点只用 3 个二进制位),会严重失真。就像把高清照片压成马赛克。
Google 的 TurboQuant 通过三个数学技巧,实现了近乎无损的压缩:
| 技巧 | 作用 |
|---|---|
| 随机旋转 | 把数据分布”捋顺”,让相似的值聚在一起 |
| 极坐标映射 | 从直角坐标系转到极坐标,大幅减少存储”边界”信息 |
| QJL 纠错 | 用 1 bit 做纠错,消除压缩带来的误差 |
实际效果
| 指标 | 效果 |
|---|---|
| KV Cache 大小 | 减少 6 倍 |
| 推理速度 | 提升 8 倍(H100 实测) |
| 精度损失 | 零损失( Needle-in-a-Haystack 测试满分) |
已经有人实现了
- vLLM:Mitko Vasilev 在一块 HP ZGX(USB 充电器大小)上塞进了 400 万 KV-cache tokens
- MLX(Apple Silicon):Qwen3.5-35B 模型上测试,2.5-bit 压缩后 KV cache 缩小 4.9 倍
为什么速度反而快了?
等等,数据变小了,但计算精度还在压缩和解压缩,这不应该更慢吗?
关键在显存带宽,不在算力。
现在的 GPU 就像一个仓库:
- 算力:仓库的加工能力(很强,溢出了)
- 带宽:仓库的搬运能力(不够用,是瓶颈)
TurboQuant 把 16-bit 数据压到 3-bit,相当于:
- 本来要搬运 16 袋水泥
- 现在只要搬 3 袋
- 仓库的加工能力本来就够用,所以搬运时间大幅减少,整体速度就快了
争议和质疑
1. 论文是”炒冷饭”?
TurboQuant 的论文 2025 年 4 月就挂 arxiv 了,Google 官方博客 2026 年 3 月 25 日才大力宣传。Reddit 网友吐槽:“快一年了才拿出来说。“
2. 真的是”无损”吗?
有技术人员指出,Google 宣称的”零精度损失”可能有水分:
- 测试可能经过挑选
- 形式化推演有偷换概念的地方
- 实际落地效果可能打折扣
3. 存储股票因此下跌
TurboQuant 公布后,有人解读为”以后不需要那么多显存了”,导致三星、SK 海力士、美光等存储公司股价下跌。但也有分析师认为这是过度反应。
对普通用户意味着什么?
| 场景 | 影响 |
|---|---|
| 本地跑大模型 | 同样配置可以跑更长的上下文 |
| API 调用成本 | 推理成本下降,收费可能降低 |
| 并发能力 | 同样的 GPU 能服务更多用户 |
| 长对话场景 | 万字以上的对话变得可行 |
技术细节(三句话版本)
- 随机旋转:把 KV 向量换个角度”摆”,让数据分布更容易压缩
- 极坐标映射:用”距离+角度”代替”x,y,z坐标”,省存储
- QJL 纠错:1 bit 的额外信息,修复压缩造成的误差
论文信息
- 标题:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
- 作者:Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni(Google Research)
- arXiv:2504.19874
- 会议:ICLR 2026(已接收)
- 发表时间:2025 年 4 月(arXiv),2026 年 3 月(官方博客)
总结
TurboQuant 是 Google 在大模型推理优化方面的重要突破,核心贡献是:
把 KV Cache 从 16-bit 压到 3-bit,内存减少 6 倍,速度提升 8 倍,而且几乎不影响答案质量。
如果这项技术成熟落地,未来在消费级 GPU 上跑千亿级大模型、多轮超长对话的成本都会大幅下降。
当然,也有人质疑 Google 有夸大宣传的成分,实际效果还需要更多独立验证。
整理自 X/Twitter 讨论、Reddit 评价及 arXiv 论文摘要
时间:2026 年 3 月 26 日