Google这个"压缩怪兽"TurboQuant,可能让你的手机也能跑大模型了

4 阅读5分钟

昨天刷到一条消息,差点没从椅子上弹起来——Google Research 发了一篇论文叫 TurboQuant,号称能把大模型的"工作内存"压缩6倍,推理速度提升8倍,而且精度零损失。

零损失啊兄弟们。

更离谱的是,这东西一出来,美股内存芯片板块直接集体跳水。美光跌了3%,西部数据跌了4.7%,闪迪更是跌了5.7%。华尔街的逻辑很简单:如果AI不需要那么多内存了,你们卖内存的还怎么赚钱?

先说说这玩意儿到底解决了什么问题

你用 ChatGPT 或者 Claude 的时候,有没有注意到一个现象——对话越长,回答质量越差?甚至有时候它会"忘记"你前面说的话?

这背后有个技术原因:KV Cache(键值缓存)

简单解释一下。大模型在处理你的对话时,需要记住之前所有的上下文。这个"记忆"就是 KV Cache。问题是,对话越长,这个缓存就越大,内存占用指数级增长。

举个例子,一个 70B 参数的模型处理 32K 上下文窗口时,光 KV Cache 就要吃掉几十 GB 的显存。这也是为什么在手机上跑大模型基本是做梦——不是算力不够,是内存装不下。

TurboQuant 就是来解决这个事的。

它到底怎么做到的?

TurboQuant 的核心思路说白了就两步,但每一步都挺巧妙。

第一步:PolarQuant —— 换个坐标系压缩

传统的量化方法是在笛卡尔坐标系下直接砍精度,比如把 32 位浮点数硬压到 4 位。这样做的问题是,你需要对每个数据块做归一化(normalization),这一步本身就很贵。

PolarQuant 换了个思路:把向量从直角坐标系转换到极坐标系。转换之后,数据变成了"半径 + 角度"的形式。关键来了——角度的分布是高度集中且可预测的,所以可以用极少的比特精确表示,而且完全不需要归一化这一步。

这一步就把数据从 32 位压到了约 4 位左右。

第二步:QJL —— 用1个比特修正误差

第一步再精确,总会有点量化误差。QJL(Quantized Johnson-Lindenstrauss)就是来收拾残局的。

它用了一个数学上叫 Johnson-Lindenstrauss 变换的技巧,把残差投影到低维空间,然后每个值只保留正负号——也就是1个比特。就这1个比特,就能把第一步引入的系统性偏差给消除掉。

两步加起来,每个数值只需要 3-4 个比特就能精确表示,而传统方案需要 32 位。

压缩比:6-10倍。精度损失:零。

实测数据有多猛?

Google 在 NVIDIA H100 上做的测试:

  • 4-bit 模式:注意力计算速度提升 8倍
    • 3-bit 模式:内存占用减少 6倍以上
    • Needle-in-a-Haystack 测试:满分通过,压缩后照样能在超长文本中精准找到目标信息
    • 问答、代码生成、摘要任务:精度与无压缩版本无统计学差异

Tom's Hardware 的原话是:"3-bit KV cache 可以让 32K 以上的上下文在手机上纯软件实现变得可行。"

VentureBeat 估算,这项技术如果大规模部署,企业级AI推理成本可以直接砍半

为什么大家叫它"Pied Piper"?

TechCrunch 发了篇文章,标题直接写:

"Google unveils TurboQuant — and yes, the internet is calling it 'Pied Piper'"

如果你看过 HBO 的《硅谷》(Silicon Valley),一定记得剧里的创业公司 Pied Piper——靠一个压缩算法颠覆了整个科技行业。

TurboQuant 跟它的相似度高得离谱:都是压缩算法,都是"看起来不起眼但可能改变格局",都让竞争对手坐立不安。

Reddit 上有人评论:"我们终于活到了 Pied Piper 成真的那一天。"

当然也有清醒的声音——目前 TurboQuant 还只是论文阶段,并没有大规模部署。Google 的 Amir Zandieh 自己也说这还是实验室成果。但这篇论文已经被 ICLR 2026 接收了,说明同行评审是认可的。

这对普通人意味着什么?

说几个最直接的影响:

1. 手机端大模型不再是梦

3-bit 压缩意味着,一个原本需要 48GB 显存的模型,现在 8GB 就能跑。你的 iPhone 或者安卓旗舰,完全有可能在本地跑一个相当强的语言模型,不需要联网,不需要上传你的数据到云端。

2. AI 推理成本大幅下降

对于做 AI 产品的公司来说,推理成本是最大的痛点之一。内存用量砍到 1/6,直接意味着同样的 GPU 可以服务更多用户,或者用更便宜的硬件达到同样效果。

3. 超长上下文将成为标配

现在大模型处理 100K+ token 对话时又慢又贵,根本原因就是 KV Cache 太大。TurboQuant 如果落地,处理超长对话的成本会指数级下降。

我的判断

这不是一个会立刻改变世界的技术——毕竟从论文到产品化还有很长的路。

但它的意义在于,它证明了一个方向是可行的:不需要无限堆硬件,用更聪明的算法也能让 AI 变得更高效。 这跟 DeepSeek 之前做的事情是一个路线——不是拼谁的 GPU 多,而是拼谁的工程更精细。

华尔街之所以反应那么大(内存股集体暴跌),不是因为 TurboQuant 明天就会部署,而是因为它证明了一种可能性:AI 对内存的需求增长,可能没有之前预期的那么夸张。

这条赛道上的玩家,该紧张了。


参考来源:

  • Google Research Blog: "TurboQuant: Redefining AI efficiency with extreme compression"
    • TechCrunch: "Google unveils TurboQuant — and yes, the internet is calling it 'Pied Piper'"
    • Tom's Hardware: "Google's TurboQuant compresses KV caches to 3 bits with no accuracy loss"
    • VentureBeat: "Google's new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50%"