TurboQuant 是谷歌 2026 年 3 月发布的极端 KV 缓存压缩算法,核心突破是将大模型推理所需的键值缓存压缩至 3-bit,内存占用降低 6 倍,H100 上注意力计算速度提升 8 倍,同时推理精度几乎零损耗。 该算法由 PolarQuant 极坐标变换与 QJL 误差校正两个模块组成,无需重训练,即插即用,将于 ICLR 2026 正式发表。
一篇论文,搅动了万亿美元的存储芯片市场。
本周三美股开盘,存储板块遭遇「黑色时刻」,巨头股价全线飘绿——
截至收盘,美光科技跌 4%,西部数据跌 4.4%,希捷跌 5.6%,闪迪重挫 6.5%。
导火索,正是谷歌悄然发布的 TurboQuant 压缩算法。
Cloudflare CEO Matthew Prince 直接将其喊成了「谷歌的 DeepSeek 时刻」。
KV 缓存:大模型推理的「吞金兽」
KV 缓存(Key-Value Cache)是大模型推理阶段内存占用最大的单一来源。
原理并不复杂:大模型每生成一个 Token,都要「回看」之前所有 Token 的信息。为了避免重复计算,模型把每一层注意力机制产出的 Key 向量和 Value 向量全部缓存起来,形成一张高速「速查表」。
问题在于这张表随对话长度线性膨胀:
- 上下文 4K Token:KV 缓存尚在可控范围
- 上下文 128K Token:KV 缓存开始反超模型参数本身
- 上下文达到百万级别:KV 缓存成为推理阶段最大的内存瓶颈
传统解法是向量量化——把 16-bit 浮点数压到 4-bit 整数。
但几乎所有传统方法都有一个隐藏的「手续费」:每一小块数据还要额外存储一组全精度量化常数,每个数字多吃 1 到 2 个 bit。
名义上压到 4-bit,实际往往是 5 到 6-bit。压缩的收益,被自己的元数据蚕食了一大截。
TurboQuant 的目标,正是彻底消灭这笔附加费。
TurboQuant 两步绝杀:极坐标 + 1-bit 误差校正
TurboQuant 的核心是一个精巧的两阶段流程,总预算仅 3-bit,额外开销归零。
第一步:PolarQuant——换一套坐标系看世界
传统量化在笛卡尔坐标系下操作,每个维度取值范围不固定,必须额外存储归一化参数来「对齐」。
PolarQuant 先做一件看似无意义的事:对数据向量做一次随机旋转。
这一步的数学意义很深——在高维空间里,随机旋转会让向量的每个坐标分量收敛到一种高度集中的 Beta 分布,各分量近似独立同分布。
不管原始数据长什么样,转完之后,统统变成「一个模子刻出来的」。
接下来,把旋转后的向量从笛卡尔坐标系转换成极坐标系:
传统方法描述位置:向东走 3 个街区,再向北走 4 个街区。 PolarQuant 的描述:朝 37 度方向直接走 5 个街区。
转换之后,整个向量被拆成半径(信号强度)和一组角度(信号方向)。然后再做「递归配对」——把坐标两两分组做极坐标变换,把半径再两两分组做第二轮变换,如此递归,最终整个高维向量被浓缩为一个最终半径和一系列角度。
因为角度的分布在数学上已知且高度集中,整个过程不需要存储任何归一化常数。
开销,归零。
第二步:QJL——用 1-bit 消灭残余偏差
再精准的压缩,也会留下误差。
而且这里有个隐蔽的陷阱:一个 MSE 意义上最优的 1-bit 量化器,在高维空间中会引入一个 2/π 的乘性偏差。
也就是说,压缩做得很好、失真也很低,但用它算注意力分数时,结果是系统性偏斜的。
TurboQuant 第二步专门来「杀」这个偏差。
它将 Johnson-Lindenstrauss 变换应用到第一阶段的残余误差上,把每个误差值压成一个符号位:+1 或 -1。
配合一个特殊估计器——高精度 Query 向量和低精度压缩 Key 做联合计算。
这套组合在数学上被证明是「无偏」的:压缩前后的内积期望值严格相等。
只消耗最后 1 个 bit,残余系统偏差彻底抹平。
性能数据:贴着信息论的物理极限在跑
| 指标 | TurboQuant(3-bit) | 传统 KIVI(4-bit) | 全精度基线 |
|---|---|---|---|
| 内存占用 | 基线 1/6 | 基线 1/4 | 100% |
| 注意力计算速度(H100) | 基线 8× | 基线 4× | 1× |
| LongBench 综合性能 | ≈ 全精度 | 略低于全精度 | 100% |
| 大海捞针精度(10万Token) | 与全精度一致 | 有损失 | 100% |
| 是否需要重训练 | 否 | 否 | — |
| 额外元数据开销 | 零 | 1-2 bit/组 | — |
论文给出了严格的理论证明:TurboQuant 的 MSE 失真率,在所有位宽下都控制在理论绝对下限的约 2.7 倍以内。1-bit 极端压缩情况下,更是只有最优值的约 1.45 倍。
这个数字的含义:它几乎贴着信息论的「物理极限」在运行。
跑分全面碾压:五大基准测试通关
谷歌在五大长上下文基准测试上对 TurboQuant 进行了严格验证:
- LongBench(问答、代码生成、文本摘要):3-bit 配置全面优于 KIVI,逼近全精度表现
- Needle In A Haystack(大海捞针):4 倍压缩比下检索精度维持到 10.4 万 Token,与全精度完全一致
- ZeroSCROLLS、RULER、L-Eval:测试模型覆盖 Gemma、Mistral、Llama-3.1-8B-Instruct,结果一致
最残酷的考验是「大海捞针」:在 10 万 Token 的文本海洋里精准捞出一句特定信息。
6 倍压缩之后,模型该记住的,一个字都没丢。
社区验证也跟上了。论文发布不到 24 小时,独立开发者在 Reddit 上晒出了复现成果:基于 PyTorch 和自定义 Triton kernel,在 RTX 4090 上用 2-bit 精度跑 Gemma 3 4B,输出与未压缩版本逐字符一致。
论文写的「零损耗」,社区用代码投了票。
另一位开发者 Prince Canuma 实测后总结:
2.5-bit 量化让 KV 缓存缩小了 4.9 倍;3.5-bit 量化也实现了 3.8 倍缩小,面对 8.5K 到 64.2K 的大跨度上下文表现稳定。
存储芯片的天,真的塌了吗?
美光、西数们的股价崩了,但存储芯片的天,大概率没有真的塌。
科技行业有一条反复验证的铁律——杰文斯悖论:资源使用效率越高,总消耗量反而越大。
KV 缓存压缩 6 倍,最可能的结果不是少买内存,而是:
- 同样的显存,跑更长的上下文——128K 延伸到百万 Token 级别
- 同样的硬件,跑更多并发——推理服务商扩容吞吐量
- 同样的预算,采购更大的模型——70B 替代 7B
历史上,压缩算法从未真正减少过采购量。
但有两件事,确实在改变:
第一,推理成本的地板价被改写了。 当 3-bit 能做到过去 16-bit 的事,受益的是每一个做推理服务的公司。七牛云 AI 推理服务等集成了 Claude、Gemini、DeepSeek 的多模型平台,在这类算法普及后能以更低成本提供更长上下文窗口,直接拉低终端 API 调用单价。
第二,从论文到落地的路正在缩短。 TurboQuant 目前仅在 8B 参数级别的开源模型上得到验证,70B 以上模型、MoE 架构、百万级上下文窗口上的表现尚未证实。谷歌也未宣布它已部署到 Gemini 或任何生产系统中。
常见问题
Q:TurboQuant 和 KIVI 等传统 KV 缓存量化方案有什么区别?
传统方案(如 KIVI)在压缩时需要为每组数据存储额外的量化常数(每个数字多占 1-2 bit),导致名义 4-bit 实际 5-6 bit。TurboQuant 通过 PolarQuant 极坐标变换从根本上消除了对额外元数据的需求,同时 QJL 模块保证无偏估计,3-bit 总预算实现接近全精度效果。
Q:TurboQuant 的 8 倍速度提升是端到端推理速度吗?
不是。8 倍是 H100 上注意力计算环节的加速比,并非端到端推理整体提速。但注意力计算恰恰是长上下文推理最吃资源的瓶颈,这个加速比对实际服务成本的影响非常显著。
Q:TurboQuant 是否需要针对特定模型重新训练?
不需要。TurboQuant 是「数据无感知」(data-oblivious)算法,全程不依赖任何校准数据,不需要预训练或微调,对数据集零假设。即插即用,在开源模型上经开发者社区验证可直接部署。
Q:普通消费级显卡(如 RTX 4090 或 Mac mini)能用上 TurboQuant 吗?
已有社区开发者在 RTX 4090 上复现成功,基于 PyTorch 和 Triton kernel,2-bit 精度跑 Gemma 3 4B 与未压缩版本输出一致。16GB Mac mini 理论上也受益——6 倍内存压缩意味着之前跑不动的模型现在有可能跑起来。
Q:TurboQuant 的向量搜索能力如何?
在 GloVe 数据集(200 维)的测试中,TurboQuant 击败了 PQ 和 RabbiQ 两大前沿方法,拿下最优 1@k 召回率。由于谷歌搜索、推荐系统、广告系统底层均依赖向量检索,这一结果意味着 TurboQuant 有明确的大规模工程落地路径,不只是学术玩具。
结语
在算力军备竞赛里,最锋利的武器未必是更大的芯片,也可能是更聪明的数学。
TurboQuant 贴着信息论物理极限运行,将 3-bit KV 缓存压缩变成现实,代表着大模型推理效率的一次范式级跃迁。据谷歌研究博客披露,相关论文将于 ICLR 2026 和 AISTATS 2026 正式发表,核心思想向全行业敞开。
技术不关心股票代码,只关心比特的边界在哪里。
本文内容基于 2026 年 3 月谷歌发布数据,TurboQuant 在 70B 以上模型及百万级上下文的表现尚待后续验证,建议关注 ICLR 2026 正式论文发布后的最新进展。
延伸资源
- 论文原文:arxiv.org/pdf/2504.19…
- 谷歌研究博客:research.google/blog/turboq…
- 多模型 API 调用对比:www.qiniu.com/ai/models