Google 迎来「DeepSeek 时刻」:TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理

0 阅读12分钟

原文: mp.weixin.qq.com/s/zI2GQhGkz…

欢迎关注公zh: AI-Frontiers

3月24日,谷歌在官方博客中推出革命性的压缩算法TurboQuant,相关内容将分别在 ICLR 2026和AISTATS 2026国际顶会发表。一经公布,引发了技术圈纷纷热议。更夸张的是,3月25日美股一开盘,存储芯片板块就集体迎来 「黑色时刻」,遭遇重挫。

TurboQuant算法通过几何视角的向量量化手段,从根本上解决自回归推理中的「内存墙」难题。该技术结合了PolarQuant(极坐标量化)与QJL(Quantized Johnson-Lindenstrauss)两大核心组件,不仅在理论上逼近了信息论的压缩下限,更在实践中实现了KV Cache高达6倍以上的内存压缩、注意力计算速度提升8倍。

技术背景:内存瓶颈与传统范式的终结

要弄明白TurboQuant为什么能掀起这么大的市场波澜,就必须先看清一个结构性矛盾:「大模型 推理的卡脖子环节不是 算力 ,而是 内存」。也就是说,TurboQuant解决的是推理阶段的内存占用问题。

下面,我们将LLM推理拆分为Prefill(预填充)与Decode(解码)两个阶段, 为大家解释下为啥「大模型 推理的卡脖子环节不是 算力 ,而是 内存」。

Transformer架构作为LLM的核心,其本质是用高维向量表示每个词元(Token),再通过注意力机制让词元与词元之间互相关联。模型每预测一个新词元,都要用到前面所有词元的信息。作用类似于人类「边说边回顾」时的短期记忆。

如果不做优化,每次都重新算前面所有词元的Key和Value向量,会非常慢。工业界普遍采用KV Cache缓存技术,思路就是「以空间换时间」,即用显存空间换推理速度,具体做法如下:

  • Prefill阶段:在最开始的预填充阶段,一次性把用户输入的所有输入词元的K、V算好,存到显存里

  • Decode阶段:后面生成新词元时,只需要算当前词元的Query,再和缓存里的K、V做计算就行

  • Decode循环:将Decode阶段生成的新词元KV追加到KV缓存中

这种策略虽然极大提升计算效率,也带来了问题:显存占用随上下文长度线性增长。尤其是,随着长文本需求(如长文档摘要、代码库理解)成为主流,KV Cache的体积往往会迅速超过模型参数本身的大小,成为显存消耗的主要来源。

以13B参数模型为例,在NVIDIA A100 40GB显卡上,模型权重就占了约 65% 的显存,而KV Cache还会轻易占用剩下30% 以上的空间。当上下文长度从4K扩展到128K乃至百万级时,KV Cache消耗的显存往往会超过模型参数本身,成为推理环节最主要的内存瓶颈。

该瓶颈并非单纯显存容量限制,显存数据传输带宽所带来的问题更为棘手。

当前AI硬件的发展呈现出一种显著的不对称性,GPU的计算能力TFLOPS(Tera Floating-Point Operations Per Second,每秒万亿次浮点运算)增长速度远快于显存带宽和容量的增长速度。在LLM推理阶段,瓶颈往往不在于计算核心的运算速度,在于将KV Cache缓存从显存(HBM)搬运到计算单元(Tensor Core)的过程。这种现象被业界称为「内存 墙(Memory Wall) 」。

当上下文窗口扩展到10万甚至100万个词元时,单张GPU(如NVIDIA H100)的显存可能仅能支撑极小规模的并发请求。如果内存墙无法被打破,AI服务的单次推理成本将居高不下,限制了长上下文模型在企业级应用中的规模化落地。

在过去几年里,行业破解大模型内存难题的思路,主要集中在三个方向:

  • 控制上下文长度:典型方案为滑动窗口注意力,只保留最近一段固定长度的记忆,舍弃过远的上下文,相当于给KV缓存划定长度上限。

  • 精简注意力结构:通过MQA(Grouped-Query Attention)、MQA(Multi-Query Attention)等改进,减少Key 与Value头的数量,从而降低每一层需要缓存的数据量。MQA 实现多注意力头共享键值、独立查询,GQA 则以分组共享键值的方式做了进一步优化,兼顾性能与内存效率。

  • 降低存储精度:即量化技术。把原本用16位浮点数存储的KV向量,压缩成8bit、4bit甚至更低精度的整数,从数据格式上直接减少显存消耗。

量化看似是最直接的方案,但传统量化方法存在「元数据开销与精度流失」的困境。

  • 显著的 归一化 内存 开销:即「额外比特」问题。为了应对向量分布中的离群值,传统方法通常需要对数据进行分块归一化,为每一个小数据块存储高精度的缩放因子和零点。在4bit量化中,这些元数据往往会额外占据1到2bit的等效空间,使得原本追求的压缩比被严重稀释。

  • 精度与稳定性的矛盾:在低比特(如3bit以下)量化中,舍入误差和截断误差,会随着网络层数的加深而累积,导致模型出现严重的幻觉或逻辑崩溃。

  • 数据的 依赖性:许多先进的非均匀量化方法(如基于校准数据集的方法)需要针对特定模型或任务进行离线调优,缺乏通用的灵活性,且在面对未知分布的数据时表现脆弱。

这正是TurboQuant要攻克的核心问题:从根源消除传统量化的隐性开销,打造真正适配在线、实时、零预处理场景的向量压缩方案。

TurboQuant的技术原理:从「杂乱无章」到「绝对可预测」

TurboQuant的核心思想是:与其费力去适应各种不规则的数据分布,不如用数学手段将所有数据强制揉搓成一种极其整齐、绝对可预测的形状。这样,我们就无需为每一块数据存储复杂的说明书(元数据),从而实现极致压缩。分为「PolarQuant随机旋转+ Lloyd-Max量化」和「QJL 残差 纠偏」两个阶段。

我们用一个生活中的类比来理解,想象一下你经营着一家高端成衣定制店,TurboQuant的两个阶段就像是把繁琐的量体裁衣转化为高效的快时尚成衣过程。

  • 对于「PolarQuant随机旋转+ Lloyd-Max量化」阶段,这好比在剪裁前,先将整块布料进行「均匀旋转铺平」,确保没有哪一个角特别厚或特别薄,消除了极端的异常点,再按照「最均衡的通用尺码」进行裁剪 用最少的碎布(低位宽比特)尽可能贴合大多数人的身形。

  • 接着是「QJL残差纠偏」阶段 ,这就像在成衣完成后,裁缝发现领口可能松了一点,于是特意打了一个「隐形成比例的补丁」来补偿裁剪时的精度损失。通过这两步,不仅能像工厂流水线一样飞速产出衣服(推理速度大幅提升),每件衣服穿起来的效果也能接近昂贵的手工定制版。

下面从技术的层面介绍上面两个阶段。

PolarQuant随机旋转+ Lloyd-Max量化

在大模型中,不同层的向量分布千差万别,有的非常集中,有的则充满了极端离群值。传统量化就像给不同身材的人定制衣服,你必须记录每个人的尺寸(缩放因子),这非常占空间。

TurboQuant的解法是在量化之前,先给所有向量乘以一个随机旋转矩阵 Π\Pi。根据高维几何的「测度集中」原理,任何向量在经过随机旋转后,其各个坐标的分布都会收敛于一种固定的、极其稳定的Beta分布。对于dd 维单位超球体上的向量,旋转后的坐标 xx遵循以下概率密度函数:

fX(x)=Γ(d/2)πd¸otΓ((d1)/2)(1x2)(d3)/2\begin{align} f_X(x) = \frac{\Gamma(d/2)}{\sqrt{\pi} \c dot \Gamma((d - 1)/2)} (1 - x^2)^{(d-3)/2} \end{align}

在维度dd足够大时,该分布收敛于高斯分布N(0,1/d)N(0, 1/d) 。这意味着无论原始数据的分布多么奇特,旋转后的数据形状都是已知的、固定的。由于分布已知,系统不再需要为每个数据块存储昂贵的归一化常数,而是可以直接映射到一个预设的、最优的圆周网格上。这种「数据无关」(Data-oblivious)的特性解决了传统量化的元数据开销问题。

既然知道了数据遵循Beta分布,TurboQuant 直接预先设计了一套「万用网格」。算法通过求解Lloyd-Max优化问题(一种连续空间的1D k-means),在Beta分布曲线上找到能使平均误差最小的最优采样点。这些采样点(质心)在离中心点近的地方更密集,在边缘处更稀疏,能够最大程度保留信息。例如, 对于 4bit量化(16个等级),算法提前计算好这16个位置。量化时,GPU只需做一次旋转加一次查表,完全不需要存储任何额外的缩放因子,从而彻底消除额外的元数据税。

QJL 残差 纠偏

无论前两步多精确,在极低位宽(如3比特以下)时,总会产生细微的舍入误差。如果这些误差在计算注意力分数时累积,模型就会开始产生幻觉。TurboQuant通过引入QJL(Quantized Johnson-Lindenstrauss) 变换作为第二阶段的防护。

QJL的精妙之处在于它是一个无偏估计器。在计算注意力分数(查询QQ与键KK的内积)时,它将第一阶段留下的残差投影到低维空间,并仅保留正负号(1比特)。简单理解,QJL在计算attention分数时,用的是未压缩的高精度 query向量和压缩后的key向量配合工作。高精度的那一侧「兜住了」低精度那一侧的误差。

总结下两个阶段,先由PolarQuant承担主力压缩,再通过QJL进行1bit精细扫尾修正,二者结合最终实现3-bit KV Cache压缩,并且全程无需模型重训练、无需微调、也不用针对特定数据集做校准。

TurboQuant评测效果

谷歌研究团队在多种开源模型(如Gemma、Mistral、Llama系列)和各种长上下文基准测试(LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval )中对TurboQuant进行了严苛验证。实验结果显示,TurboQuant 在点积失真与召回率指标上均取得最优性能,同时最大程度降低了键值(KV)缓存的内存占用。下图对比呈现了 TurboQuant、PolarQuant与KIVI 基线算法在问答、代码生成、摘要等多类任务上的综合性能得分。

“大海捞针”(Needle-in-a-Haystack)是衡量模型长上下文召回能力的黄金标准,要求模型从10万字以上的文本中准确提取单一事实。TurboQuant 在所有基准上均实现完美的下游效果,同时将键值内存占用至少降低6倍,PolarQuant在该任务上也基本保持性能无损。

TurboQuant证实,其可将KV缓存量化至仅3bit,无需训练与微调、不损失模型精度,且推理速度快于原生 Gemma、Mistral等大模型;整体实现高效,运行时开销近乎可忽略。在H100 GPU上,4位TurboQuant相较32位未量化KV缓存,注意力计算速度提升达8倍,下图直观呈现了这一速度增益。

除了LLM推理,TurboQuant在向量数据库检索(Semantic Search)中也展现了卓越的性能。在GloVe等标准数据集上,TurboQuant的1@k召回率始终优于传统的乘积量化(PQ)和RabbiQ方法。更重要的是,由于其「数据无关」的旋转特性,TurboQuant几乎不需要索引构建时间,非常适合数据频繁变动的实时搜索场景。

对行业的影响

TurboQuant的发布不仅仅是一个算法的进步,它正在重塑人工智能产业的底层逻辑。

成本曲线的重塑与AI的普及

通过将单次查询的服务成本降低多达50%-80%,TurboQuant使得原本昂贵的长文本AI服务变得平民化。小型初创公司和个人开发者现在能够在消费级GPU(甚至是移动设备)上运行原本只能在昂贵云集群上运行的大型模型。这种「推理经济性」的提升将极大地加速AI在法律审计、长代码维护、个人数字助理等领域的普及。

市场的「杰文斯悖论」

TurboQuant发布后,资本市场对内存芯片厂商(如美光、西部数据)的恐慌性抛售反映了一种误解,即认为效率提升会导致硬件需求减少。然而,经济学中的「杰文斯悖论」(Jevons Paradox)预示了相反的结果:当存储资源的使用成本大幅下降时,用户对存储的总需求反而会因为应用场景的爆发而增加。

节省下来的显存并不会被空置,而是会被用于支持更大的上下文窗口(例如从32K扩展到1M)、更复杂的Agentic Workflow(智能体工作流)以及更高参数的模型。因此,TurboQuant的长远影响是对计算和存储硬件需求的中性偏正。

硬件设计的未来方向

TurboQuant的成功证明了算法创新可以部分抵消物理硬件的限制。这促使芯片设计者(如NVIDIA、Google TPU团队)重新思考下一代加速器的架构。未来可能会出现专门针对随机旋转和极坐标转换进行优化的指令集,从而将压缩增益进一步推向极限。

同时,TurboQuant被技术社区誉为谷歌的「DeepSeek 时刻」。它标志着AI竞争的焦点正在从单纯的「规模竞赛」转向「效率竞赛」。谁能更有效地管理内存和算力,谁就能在推理成本战中占据制高点。

在我看来,当下最具颠覆性的AI突破,未必来自下一个万亿参数的巨型模型,反而更可能诞生于算法创新和工程优化,不管是Deepseek、还是Google,或者是下一个「DeepSeek 时刻」的提出者,无疑证明了一点,这些看似低调的技术,才是推动AI真正走向普惠、无处不在的核心关键,而对整个行业而言,这仅仅只是拉开了序幕。

参考资料

TurboQuant: Redefining AI efficiency with extreme compression

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead

PolarQuant: Quantizing KV Caches with Polar Transformation