Google 迎来「DeepSeek 时刻」：TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理

欢迎关注公zh: AI-Frontiers

3月24日，谷歌在官方博客中推出革命性的压缩算法TurboQuant，相关内容将分别在 ICLR 2026和AISTATS 2026国际顶会发表。一经公布，引发了技术圈纷纷热议。更夸张的是，3月25日美股一开盘，存储芯片板块就集体迎来「黑色时刻」，遭遇重挫。

TurboQuant算法通过几何视角的向量量化手段，从根本上解决自回归推理中的「内存墙」难题。该技术结合了PolarQuant（极坐标量化）与QJL（Quantized Johnson-Lindenstrauss）两大核心组件，不仅在理论上逼近了信息论的压缩下限，更在实践中实现了KV Cache高达6倍以上的内存压缩、注意力计算速度提升8倍。

技术背景：内存瓶颈与传统范式的终结

要弄明白TurboQuant为什么能掀起这么大的市场波澜，就必须先看清一个结构性矛盾：「大模型 推理的卡脖子环节不是 算力 ，而是 内存」。也就是说，TurboQuant解决的是推理阶段的内存占用问题。

下面，我们将LLM推理拆分为Prefill（预填充）与Decode（解码）两个阶段，为大家解释下为啥「大模型 推理的卡脖子环节不是 算力 ，而是 内存」。

Transformer架构作为LLM的核心，其本质是用高维向量表示每个词元（Token），再通过注意力机制让词元与词元之间互相关联。模型每预测一个新词元，都要用到前面所有词元的信息。作用类似于人类「边说边回顾」时的短期记忆。

如果不做优化，每次都重新算前面所有词元的Key和Value向量，会非常慢。工业界普遍采用KV Cache缓存技术，思路就是「以空间换时间」，即用显存空间换推理速度，具体做法如下：

Prefill阶段：在最开始的预填充阶段，一次性把用户输入的所有输入词元的K、V算好，存到显存里
Decode阶段：后面生成新词元时，只需要算当前词元的Query，再和缓存里的K、V做计算就行
Decode循环：将Decode阶段生成的新词元KV追加到KV缓存中

这种策略虽然极大提升计算效率，也带来了问题：显存占用随上下文长度线性增长。尤其是，随着长文本需求（如长文档摘要、代码库理解）成为主流，KV Cache的体积往往会迅速超过模型参数本身的大小，成为显存消耗的主要来源。

以13B参数模型为例，在NVIDIA A100 40GB显卡上，模型权重就占了约 65% 的显存，而KV Cache还会轻易占用剩下30% 以上的空间。当上下文长度从4K扩展到128K乃至百万级时，KV Cache消耗的显存往往会超过模型参数本身，成为推理环节最主要的内存瓶颈。

该瓶颈并非单纯显存容量限制，显存数据传输带宽所带来的问题更为棘手。

当前AI硬件的发展呈现出一种显著的不对称性，GPU的计算能力TFLOPS（Tera Floating-Point Operations Per Second，每秒万亿次浮点运算）增长速度远快于显存带宽和容量的增长速度。在LLM推理阶段，瓶颈往往不在于计算核心的运算速度，在于将KV Cache缓存从显存（HBM）搬运到计算单元（Tensor Core）的过程。这种现象被业界称为「内存 墙（Memory Wall） 」。

当上下文窗口扩展到10万甚至100万个词元时，单张GPU（如NVIDIA H100）的显存可能仅能支撑极小规模的并发请求。如果内存墙无法被打破，AI服务的单次推理成本将居高不下，限制了长上下文模型在企业级应用中的规模化落地。

在过去几年里，行业破解大模型内存难题的思路，主要集中在三个方向：

控制上下文长度：典型方案为滑动窗口注意力，只保留最近一段固定长度的记忆，舍弃过远的上下文，相当于给KV缓存划定长度上限。
精简注意力结构：通过MQA（Grouped-Query Attention）、MQA（Multi-Query Attention）等改进，减少Key 与Value头的数量，从而降低每一层需要缓存的数据量。MQA 实现多注意力头共享键值、独立查询，GQA 则以分组共享键值的方式做了进一步优化，兼顾性能与内存效率。
降低存储精度：即量化技术。把原本用16位浮点数存储的KV向量，压缩成8bit、4bit甚至更低精度的整数，从数据格式上直接减少显存消耗。

量化看似是最直接的方案，但传统量化方法存在「元数据开销与精度流失」的困境。

显著的 归一化 内存开销：即「额外比特」问题。为了应对向量分布中的离群值，传统方法通常需要对数据进行分块归一化，为每一个小数据块存储高精度的缩放因子和零点。在4bit量化中，这些元数据往往会额外占据1到2bit的等效空间，使得原本追求的压缩比被严重稀释。
精度与稳定性的矛盾：在低比特（如3bit以下）量化中，舍入误差和截断误差，会随着网络层数的加深而累积，导致模型出现严重的幻觉或逻辑崩溃。
数据的 依赖性：许多先进的非均匀量化方法（如基于校准数据集的方法）需要针对特定模型或任务进行离线调优，缺乏通用的灵活性，且在面对未知分布的数据时表现脆弱。

这正是TurboQuant要攻克的核心问题：从根源消除传统量化的隐性开销，打造真正适配在线、实时、零预处理场景的向量压缩方案。

TurboQuant的技术原理：从「杂乱无章」到「绝对可预测」

TurboQuant的核心思想是：与其费力去适应各种不规则的数据分布，不如用数学手段将所有数据强制揉搓成一种极其整齐、绝对可预测的形状。这样，我们就无需为每一块数据存储复杂的说明书（元数据），从而实现极致压缩。分为「PolarQuant随机旋转+ Lloyd-Max量化」和「QJL 残差纠偏」两个阶段。

我们用一个生活中的类比来理解，想象一下你经营着一家高端成衣定制店，TurboQuant的两个阶段就像是把繁琐的量体裁衣转化为高效的快时尚成衣过程。

对于「PolarQuant随机旋转+ Lloyd-Max量化」阶段，这好比在剪裁前，先将整块布料进行「均匀旋转铺平」，确保没有哪一个角特别厚或特别薄，消除了极端的异常点，再按照「最均衡的通用尺码」进行裁剪，用最少的碎布（低位宽比特）尽可能贴合大多数人的身形。
接着是「QJL残差纠偏」阶段，这就像在成衣完成后，裁缝发现领口可能松了一点，于是特意打了一个「隐形成比例的补丁」来补偿裁剪时的精度损失。通过这两步，不仅能像工厂流水线一样飞速产出衣服（推理速度大幅提升），每件衣服穿起来的效果也能接近昂贵的手工定制版。

下面从技术的层面介绍上面两个阶段。

PolarQuant随机旋转+ Lloyd-Max量化

在大模型中，不同层的向量分布千差万别，有的非常集中，有的则充满了极端离群值。传统量化就像给不同身材的人定制衣服，你必须记录每个人的尺寸（缩放因子），这非常占空间。

TurboQuant的解法是在量化之前，先给所有向量乘以一个随机旋转矩阵 $\Pi$ 。根据高维几何的「测度集中」原理，任何向量在经过随机旋转后，其各个坐标的分布都会收敛于一种固定的、极其稳定的Beta分布。对于 $d$ 维单位超球体上的向量，旋转后的坐标 $x$ 遵循以下概率密度函数：

\begin{align} f_X(x) = \frac{\Gamma(d/2)}{\sqrt{\pi} \c dot \Gamma((d - 1)/2)} (1 - x^2)^{(d-3)/2} \end{align}

在维度 $d$ 足够大时，该分布收敛于高斯分布 $N(0, 1/d)$ 。这意味着无论原始数据的分布多么奇特，旋转后的数据形状都是已知的、固定的。由于分布已知，系统不再需要为每个数据块存储昂贵的归一化常数，而是可以直接映射到一个预设的、最优的圆周网格上。这种「数据无关」（Data-oblivious）的特性解决了传统量化的元数据开销问题。

既然知道了数据遵循Beta分布，TurboQuant 直接预先设计了一套「万用网格」。算法通过求解Lloyd-Max优化问题（一种连续空间的1D k-means），在Beta分布曲线上找到能使平均误差最小的最优采样点。这些采样点（质心）在离中心点近的地方更密集，在边缘处更稀疏，能够最大程度保留信息。例如，对于 4bit量化（16个等级），算法提前计算好这16个位置。量化时，GPU只需做一次旋转加一次查表，完全不需要存储任何额外的缩放因子，从而彻底消除额外的元数据税。

QJL 残差纠偏

无论前两步多精确，在极低位宽（如3比特以下）时，总会产生细微的舍入误差。如果这些误差在计算注意力分数时累积，模型就会开始产生幻觉。TurboQuant通过引入QJL（Quantized Johnson-Lindenstrauss）变换作为第二阶段的防护。

QJL的精妙之处在于它是一个无偏估计器。在计算注意力分数（查询 $Q$ 与键 $K$ 的内积）时，它将第一阶段留下的残差投影到低维空间，并仅保留正负号（1比特）。简单理解，QJL在计算attention分数时，用的是未压缩的高精度 query向量和压缩后的key向量配合工作。高精度的那一侧「兜住了」低精度那一侧的误差。

总结下两个阶段，先由PolarQuant承担主力压缩，再通过QJL进行1bit精细扫尾修正，二者结合最终实现3-bit KV Cache压缩，并且全程无需模型重训练、无需微调、也不用针对特定数据集做校准。

TurboQuant评测效果

谷歌研究团队在多种开源模型（如Gemma、Mistral、Llama系列）和各种长上下文基准测试（LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval ）中对TurboQuant进行了严苛验证。实验结果显示，TurboQuant 在点积失真与召回率指标上均取得最优性能，同时最大程度降低了键值（KV）缓存的内存占用。下图对比呈现了 TurboQuant、PolarQuant与KIVI 基线算法在问答、代码生成、摘要等多类任务上的综合性能得分。

“大海捞针”（Needle-in-a-Haystack）是衡量模型长上下文召回能力的黄金标准，要求模型从10万字以上的文本中准确提取单一事实。TurboQuant 在所有基准上均实现完美的下游效果，同时将键值内存占用至少降低6倍，PolarQuant在该任务上也基本保持性能无损。

TurboQuant证实，其可将KV缓存量化至仅3bit，无需训练与微调、不损失模型精度，且推理速度快于原生 Gemma、Mistral等大模型；整体实现高效，运行时开销近乎可忽略。在H100 GPU上，4位TurboQuant相较32位未量化KV缓存，注意力计算速度提升达8倍，下图直观呈现了这一速度增益。

除了LLM推理，TurboQuant在向量数据库检索（Semantic Search）中也展现了卓越的性能。在GloVe等标准数据集上，TurboQuant的1@k召回率始终优于传统的乘积量化（PQ）和RabbiQ方法。更重要的是，由于其「数据无关」的旋转特性，TurboQuant几乎不需要索引构建时间，非常适合数据频繁变动的实时搜索场景。

对行业的影响

TurboQuant的发布不仅仅是一个算法的进步，它正在重塑人工智能产业的底层逻辑。

成本曲线的重塑与AI的普及

通过将单次查询的服务成本降低多达50%-80%，TurboQuant使得原本昂贵的长文本AI服务变得平民化。小型初创公司和个人开发者现在能够在消费级GPU（甚至是移动设备）上运行原本只能在昂贵云集群上运行的大型模型。这种「推理经济性」的提升将极大地加速AI在法律审计、长代码维护、个人数字助理等领域的普及。

市场的「杰文斯悖论」

TurboQuant发布后，资本市场对内存芯片厂商（如美光、西部数据）的恐慌性抛售反映了一种误解，即认为效率提升会导致硬件需求减少。然而，经济学中的「杰文斯悖论」（Jevons Paradox）预示了相反的结果：当存储资源的使用成本大幅下降时，用户对存储的总需求反而会因为应用场景的爆发而增加。

节省下来的显存并不会被空置，而是会被用于支持更大的上下文窗口（例如从32K扩展到1M）、更复杂的Agentic Workflow（智能体工作流）以及更高参数的模型。因此，TurboQuant的长远影响是对计算和存储硬件需求的中性偏正。

硬件设计的未来方向

TurboQuant的成功证明了算法创新可以部分抵消物理硬件的限制。这促使芯片设计者（如NVIDIA、Google TPU团队）重新思考下一代加速器的架构。未来可能会出现专门针对随机旋转和极坐标转换进行优化的指令集，从而将压缩增益进一步推向极限。

同时，TurboQuant被技术社区誉为谷歌的「DeepSeek 时刻」。它标志着AI竞争的焦点正在从单纯的「规模竞赛」转向「效率竞赛」。谁能更有效地管理内存和算力，谁就能在推理成本战中占据制高点。

在我看来，当下最具颠覆性的AI突破，未必来自下一个万亿参数的巨型模型，反而更可能诞生于算法创新和工程优化，不管是Deepseek、还是Google，或者是下一个「DeepSeek 时刻」的提出者，无疑证明了一点，这些看似低调的技术，才是推动AI真正走向普惠、无处不在的核心关键，而对整个行业而言，这仅仅只是拉开了序幕。