TurboQuant_quickstart

一句话总结

Google 发布了一项名为 TurboQuant 的新技术，可以把大模型运行时的”草稿纸”（KV Cache）压缩到原来的 1/6，同时速度提升 8 倍，而且完全不影响答案正确性。

什么是 KV Cache？

要理解 TurboQuant，先得知道什么是 KV Cache

打个比方

想象你是个老师，正在批改作业。批改时你需要：

看到当前这道题
回顾学生之前做的所有题（因为题目可能有关联）

KV Cache 就相当于老师的”草稿纸”，记录了学生之前每道题的做法，这样批改当前题目时不用翻回去重新算。

大模型也一样

大模型生成文字时：

每生成一个新字/词
需要回顾之前所有生成的内容
把”之前怎么想的”存起来，这就是 KV Cache

问题来了

对话越长，这张”草稿纸”越大：

10 句话：草稿纸 1 张 A4 纸
1000 句话：草稿纸变成一摞纸
10000 句话：草稿纸塞满一整个柜子

草稿纸太大，放不下了——这就是大模型推理的”内存墙”问题。

业界之前的解决方案

为了控制 KV Cache 的大小，行业想了两招：

1. 滑动窗口注意力

就像老师只记住最近 20 道题的解题思路，之前的就”忘”了。

2. 线性注意力

把所有历史解题思路压缩成一个”总结”，不管做多少题，总结大小不变。

TurboQuant 的创新：压缩”草稿纸的精度”

KV Cache 是个 3D 立方体，有三个维度：

长（上下文长度）：对话越长越长 → 滑动窗口解决了
高（状态大小）：历史压缩 → 线性注意力解决了
宽（数据精度）：现在主流是 16 位（FP16/BF16）

TurboQuant 就是来压缩”宽”的——把精度从 16-bit 压到 3-bit！

为什么压到 3-bit 很难？

正常压缩图片或音频到 3-bit（每个数据点只用 3 个二进制位），会严重失真。就像把高清照片压成马赛克。

Google 的 TurboQuant 通过三个数学技巧，实现了近乎无损的压缩：

技巧	作用
随机旋转	把数据分布”捋顺”，让相似的值聚在一起
极坐标映射	从直角坐标系转到极坐标，大幅减少存储”边界”信息
QJL 纠错	用 1 bit 做纠错，消除压缩带来的误差

实际效果

指标	效果
KV Cache 大小	减少 6 倍
推理速度	提升 8 倍（H100 实测）
精度损失	零损失（ Needle-in-a-Haystack 测试满分）

已经有人实现了

vLLM：Mitko Vasilev 在一块 HP ZGX（USB 充电器大小）上塞进了 400 万 KV-cache tokens
MLX（Apple Silicon）：Qwen3.5-35B 模型上测试，2.5-bit 压缩后 KV cache 缩小 4.9 倍

为什么速度反而快了？

等等，数据变小了，但计算精度还在压缩和解压缩，这不应该更慢吗？

关键在显存带宽，不在算力。

现在的 GPU 就像一个仓库：

算力：仓库的加工能力（很强，溢出了）
带宽：仓库的搬运能力（不够用，是瓶颈）

TurboQuant 把 16-bit 数据压到 3-bit，相当于：

本来要搬运 16 袋水泥
现在只要搬 3 袋
仓库的加工能力本来就够用，所以搬运时间大幅减少，整体速度就快了

争议和质疑

1. 论文是”炒冷饭”？

TurboQuant 的论文 2025 年 4 月就挂 arxiv 了，Google 官方博客 2026 年 3 月 25 日才大力宣传。Reddit 网友吐槽：“快一年了才拿出来说。“

2. 真的是”无损”吗？

有技术人员指出，Google 宣称的”零精度损失”可能有水分：

测试可能经过挑选
形式化推演有偷换概念的地方
实际落地效果可能打折扣

3. 存储股票因此下跌

TurboQuant 公布后，有人解读为”以后不需要那么多显存了”，导致三星、SK 海力士、美光等存储公司股价下跌。但也有分析师认为这是过度反应。

对普通用户意味着什么？

场景	影响
本地跑大模型	同样配置可以跑更长的上下文
API 调用成本	推理成本下降，收费可能降低
并发能力	同样的 GPU 能服务更多用户
长对话场景	万字以上的对话变得可行

技术细节（三句话版本）

随机旋转：把 KV 向量换个角度”摆”，让数据分布更容易压缩
极坐标映射：用”距离+角度”代替”x,y,z坐标”，省存储
QJL 纠错：1 bit 的额外信息，修复压缩造成的误差

论文信息

标题：TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
作者：Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni（Google Research）
arXiv：2504.19874
会议：ICLR 2026（已接收）
发表时间：2025 年 4 月（arXiv），2026 年 3 月（官方博客）

总结

TurboQuant 是 Google 在大模型推理优化方面的重要突破，核心贡献是：

把 KV Cache 从 16-bit 压到 3-bit，内存减少 6 倍，速度提升 8 倍，而且几乎不影响答案质量。

如果这项技术成熟落地，未来在消费级 GPU 上跑千亿级大模型、多轮超长对话的成本都会大幅下降。

当然，也有人质疑 Google 有夸大宣传的成分，实际效果还需要更多独立验证。

整理自 X/Twitter 讨论、Reddit 评价及 arXiv 论文摘要
时间：2026 年 3 月 26 日

🪴 Quartz 4.0

Explorer