显卡救星！谷歌TurboQuant发布，大模型显存狂降6倍TurboQuant 是谷歌 2026 年 3 月发布的极端

TurboQuant 是谷歌 2026 年 3 月发布的极端 KV 缓存压缩算法，核心突破是将大模型推理所需的键值缓存压缩至 3-bit，内存占用降低 6 倍，H100 上注意力计算速度提升 8 倍，同时推理精度几乎零损耗。该算法由 PolarQuant 极坐标变换与 QJL 误差校正两个模块组成，无需重训练，即插即用，将于 ICLR 2026 正式发表。

一篇论文，搅动了万亿美元的存储芯片市场。

本周三美股开盘，存储板块遭遇「黑色时刻」，巨头股价全线飘绿——

截至收盘，美光科技跌 4%，西部数据跌 4.4%，希捷跌 5.6%，闪迪重挫 6.5%。

导火索，正是谷歌悄然发布的 TurboQuant 压缩算法。

Cloudflare CEO Matthew Prince 直接将其喊成了「谷歌的 DeepSeek 时刻」。

在这里插入图片描述

KV 缓存：大模型推理的「吞金兽」

KV 缓存（Key-Value Cache）是大模型推理阶段内存占用最大的单一来源。

原理并不复杂：大模型每生成一个 Token，都要「回看」之前所有 Token 的信息。为了避免重复计算，模型把每一层注意力机制产出的 Key 向量和 Value 向量全部缓存起来，形成一张高速「速查表」。

问题在于这张表随对话长度线性膨胀：

上下文 4K Token：KV 缓存尚在可控范围
上下文 128K Token：KV 缓存开始反超模型参数本身
上下文达到百万级别：KV 缓存成为推理阶段最大的内存瓶颈

传统解法是向量量化——把 16-bit 浮点数压到 4-bit 整数。

但几乎所有传统方法都有一个隐藏的「手续费」：每一小块数据还要额外存储一组全精度量化常数，每个数字多吃 1 到 2 个 bit。

名义上压到 4-bit，实际往往是 5 到 6-bit。压缩的收益，被自己的元数据蚕食了一大截。

TurboQuant 的目标，正是彻底消灭这笔附加费。

TurboQuant 两步绝杀：极坐标 + 1-bit 误差校正

TurboQuant 的核心是一个精巧的两阶段流程，总预算仅 3-bit，额外开销归零。

在这里插入图片描述

第一步：PolarQuant——换一套坐标系看世界

传统量化在笛卡尔坐标系下操作，每个维度取值范围不固定，必须额外存储归一化参数来「对齐」。

PolarQuant 先做一件看似无意义的事：对数据向量做一次随机旋转。

这一步的数学意义很深——在高维空间里，随机旋转会让向量的每个坐标分量收敛到一种高度集中的 Beta 分布，各分量近似独立同分布。

不管原始数据长什么样，转完之后，统统变成「一个模子刻出来的」。

接下来，把旋转后的向量从笛卡尔坐标系转换成极坐标系：

传统方法描述位置：向东走 3 个街区，再向北走 4 个街区。 PolarQuant 的描述：朝 37 度方向直接走 5 个街区。

转换之后，整个向量被拆成半径（信号强度）和一组角度（信号方向）。然后再做「递归配对」——把坐标两两分组做极坐标变换，把半径再两两分组做第二轮变换，如此递归，最终整个高维向量被浓缩为一个最终半径和一系列角度。

因为角度的分布在数学上已知且高度集中，整个过程不需要存储任何归一化常数。

开销，归零。

第二步：QJL——用 1-bit 消灭残余偏差

再精准的压缩，也会留下误差。

而且这里有个隐蔽的陷阱：一个 MSE 意义上最优的 1-bit 量化器，在高维空间中会引入一个 2/π 的乘性偏差。

也就是说，压缩做得很好、失真也很低，但用它算注意力分数时，结果是系统性偏斜的。

TurboQuant 第二步专门来「杀」这个偏差。

它将 Johnson-Lindenstrauss 变换应用到第一阶段的残余误差上，把每个误差值压成一个符号位：+1 或 -1。

配合一个特殊估计器——高精度 Query 向量和低精度压缩 Key 做联合计算。

这套组合在数学上被证明是「无偏」的：压缩前后的内积期望值严格相等。

只消耗最后 1 个 bit，残余系统偏差彻底抹平。

性能数据：贴着信息论的物理极限在跑

指标	TurboQuant（3-bit）	传统 KIVI（4-bit）	全精度基线
内存占用	基线 1/6	基线 1/4	100%
注意力计算速度（H100）	基线 8×	基线 4×	1×
LongBench 综合性能	≈ 全精度	略低于全精度	100%
大海捞针精度（10万Token）	与全精度一致	有损失	100%
是否需要重训练	否	否	—
额外元数据开销	零	1-2 bit/组	—

论文给出了严格的理论证明：TurboQuant 的 MSE 失真率，在所有位宽下都控制在理论绝对下限的约 2.7 倍以内。1-bit 极端压缩情况下，更是只有最优值的约 1.45 倍。

这个数字的含义：它几乎贴着信息论的「物理极限」在运行。

跑分全面碾压：五大基准测试通关

谷歌在五大长上下文基准测试上对 TurboQuant 进行了严格验证：

LongBench（问答、代码生成、文本摘要）：3-bit 配置全面优于 KIVI，逼近全精度表现
Needle In A Haystack（大海捞针）：4 倍压缩比下检索精度维持到 10.4 万 Token，与全精度完全一致
ZeroSCROLLS、RULER、L-Eval：测试模型覆盖 Gemma、Mistral、Llama-3.1-8B-Instruct，结果一致

最残酷的考验是「大海捞针」：在 10 万 Token 的文本海洋里精准捞出一句特定信息。

6 倍压缩之后，模型该记住的，一个字都没丢。

社区验证也跟上了。论文发布不到 24 小时，独立开发者在 Reddit 上晒出了复现成果：基于 PyTorch 和自定义 Triton kernel，在 RTX 4090 上用 2-bit 精度跑 Gemma 3 4B，输出与未压缩版本逐字符一致。

论文写的「零损耗」，社区用代码投了票。

另一位开发者 Prince Canuma 实测后总结：

2.5-bit 量化让 KV 缓存缩小了 4.9 倍；3.5-bit 量化也实现了 3.8 倍缩小，面对 8.5K 到 64.2K 的大跨度上下文表现稳定。

存储芯片的天，真的塌了吗？

美光、西数们的股价崩了，但存储芯片的天，大概率没有真的塌。

科技行业有一条反复验证的铁律——杰文斯悖论：资源使用效率越高，总消耗量反而越大。

KV 缓存压缩 6 倍，最可能的结果不是少买内存，而是：

同样的显存，跑更长的上下文——128K 延伸到百万 Token 级别
同样的硬件，跑更多并发——推理服务商扩容吞吐量
同样的预算，采购更大的模型——70B 替代 7B

历史上，压缩算法从未真正减少过采购量。

但有两件事，确实在改变：

第一，推理成本的地板价被改写了。 当 3-bit 能做到过去 16-bit 的事，受益的是每一个做推理服务的公司。七牛云 AI 推理服务等集成了 Claude、Gemini、DeepSeek 的多模型平台，在这类算法普及后能以更低成本提供更长上下文窗口，直接拉低终端 API 调用单价。

第二，从论文到落地的路正在缩短。 TurboQuant 目前仅在 8B 参数级别的开源模型上得到验证，70B 以上模型、MoE 架构、百万级上下文窗口上的表现尚未证实。谷歌也未宣布它已部署到 Gemini 或任何生产系统中。

在这里插入图片描述

常见问题

Q：TurboQuant 和 KIVI 等传统 KV 缓存量化方案有什么区别？

传统方案（如 KIVI）在压缩时需要为每组数据存储额外的量化常数（每个数字多占 1-2 bit），导致名义 4-bit 实际 5-6 bit。TurboQuant 通过 PolarQuant 极坐标变换从根本上消除了对额外元数据的需求，同时 QJL 模块保证无偏估计，3-bit 总预算实现接近全精度效果。

Q：TurboQuant 的 8 倍速度提升是端到端推理速度吗？

不是。8 倍是 H100 上注意力计算环节的加速比，并非端到端推理整体提速。但注意力计算恰恰是长上下文推理最吃资源的瓶颈，这个加速比对实际服务成本的影响非常显著。

Q：TurboQuant 是否需要针对特定模型重新训练？

不需要。TurboQuant 是「数据无感知」（data-oblivious）算法，全程不依赖任何校准数据，不需要预训练或微调，对数据集零假设。即插即用，在开源模型上经开发者社区验证可直接部署。

Q：普通消费级显卡（如 RTX 4090 或 Mac mini）能用上 TurboQuant 吗？

已有社区开发者在 RTX 4090 上复现成功，基于 PyTorch 和 Triton kernel，2-bit 精度跑 Gemma 3 4B 与未压缩版本输出一致。16GB Mac mini 理论上也受益——6 倍内存压缩意味着之前跑不动的模型现在有可能跑起来。

Q：TurboQuant 的向量搜索能力如何？

在 GloVe 数据集（200 维）的测试中，TurboQuant 击败了 PQ 和 RabbiQ 两大前沿方法，拿下最优 1@k 召回率。由于谷歌搜索、推荐系统、广告系统底层均依赖向量检索，这一结果意味着 TurboQuant 有明确的大规模工程落地路径，不只是学术玩具。

结语

在算力军备竞赛里，最锋利的武器未必是更大的芯片，也可能是更聪明的数学。

TurboQuant 贴着信息论物理极限运行，将 3-bit KV 缓存压缩变成现实，代表着大模型推理效率的一次范式级跃迁。据谷歌研究博客披露，相关论文将于 ICLR 2026 和 AISTATS 2026 正式发表，核心思想向全行业敞开。

技术不关心股票代码，只关心比特的边界在哪里。

本文内容基于 2026 年 3 月谷歌发布数据，TurboQuant 在 70B 以上模型及百万级上下文的表现尚待后续验证，建议关注 ICLR 2026 正式论文发布后的最新进展。

延伸资源

论文原文：arxiv.org/pdf/2504.19…
谷歌研究博客：research.google/blog/turboq…
多模型 API 调用对比：www.qiniu.com/ai/models