昨天刷到一条消息,差点没从椅子上弹起来——Google Research 发了一篇论文叫 TurboQuant,号称能把大模型的"工作内存"压缩6倍,推理速度提升8倍,而且精度零损失。
零损失啊兄弟们。
更离谱的是,这东西一出来,美股内存芯片板块直接集体跳水。美光跌了3%,西部数据跌了4.7%,闪迪更是跌了5.7%。华尔街的逻辑很简单:如果AI不需要那么多内存了,你们卖内存的还怎么赚钱?
先说说这玩意儿到底解决了什么问题
你用 ChatGPT 或者 Claude 的时候,有没有注意到一个现象——对话越长,回答质量越差?甚至有时候它会"忘记"你前面说的话?
这背后有个技术原因:KV Cache(键值缓存)。
简单解释一下。大模型在处理你的对话时,需要记住之前所有的上下文。这个"记忆"就是 KV Cache。问题是,对话越长,这个缓存就越大,内存占用指数级增长。
举个例子,一个 70B 参数的模型处理 32K 上下文窗口时,光 KV Cache 就要吃掉几十 GB 的显存。这也是为什么在手机上跑大模型基本是做梦——不是算力不够,是内存装不下。
TurboQuant 就是来解决这个事的。
它到底怎么做到的?
TurboQuant 的核心思路说白了就两步,但每一步都挺巧妙。
第一步:PolarQuant —— 换个坐标系压缩
传统的量化方法是在笛卡尔坐标系下直接砍精度,比如把 32 位浮点数硬压到 4 位。这样做的问题是,你需要对每个数据块做归一化(normalization),这一步本身就很贵。
PolarQuant 换了个思路:把向量从直角坐标系转换到极坐标系。转换之后,数据变成了"半径 + 角度"的形式。关键来了——角度的分布是高度集中且可预测的,所以可以用极少的比特精确表示,而且完全不需要归一化这一步。
这一步就把数据从 32 位压到了约 4 位左右。
第二步:QJL —— 用1个比特修正误差
第一步再精确,总会有点量化误差。QJL(Quantized Johnson-Lindenstrauss)就是来收拾残局的。
它用了一个数学上叫 Johnson-Lindenstrauss 变换的技巧,把残差投影到低维空间,然后每个值只保留正负号——也就是1个比特。就这1个比特,就能把第一步引入的系统性偏差给消除掉。
两步加起来,每个数值只需要 3-4 个比特就能精确表示,而传统方案需要 32 位。
压缩比:6-10倍。精度损失:零。
实测数据有多猛?
Google 在 NVIDIA H100 上做的测试:
- 4-bit 模式:注意力计算速度提升 8倍
-
- 3-bit 模式:内存占用减少 6倍以上
-
- Needle-in-a-Haystack 测试:满分通过,压缩后照样能在超长文本中精准找到目标信息
-
- 问答、代码生成、摘要任务:精度与无压缩版本无统计学差异
Tom's Hardware 的原话是:"3-bit KV cache 可以让 32K 以上的上下文在手机上纯软件实现变得可行。"
VentureBeat 估算,这项技术如果大规模部署,企业级AI推理成本可以直接砍半。
为什么大家叫它"Pied Piper"?
TechCrunch 发了篇文章,标题直接写:
"Google unveils TurboQuant — and yes, the internet is calling it 'Pied Piper'"
如果你看过 HBO 的《硅谷》(Silicon Valley),一定记得剧里的创业公司 Pied Piper——靠一个压缩算法颠覆了整个科技行业。
TurboQuant 跟它的相似度高得离谱:都是压缩算法,都是"看起来不起眼但可能改变格局",都让竞争对手坐立不安。
Reddit 上有人评论:"我们终于活到了 Pied Piper 成真的那一天。"
当然也有清醒的声音——目前 TurboQuant 还只是论文阶段,并没有大规模部署。Google 的 Amir Zandieh 自己也说这还是实验室成果。但这篇论文已经被 ICLR 2026 接收了,说明同行评审是认可的。
这对普通人意味着什么?
说几个最直接的影响:
1. 手机端大模型不再是梦
3-bit 压缩意味着,一个原本需要 48GB 显存的模型,现在 8GB 就能跑。你的 iPhone 或者安卓旗舰,完全有可能在本地跑一个相当强的语言模型,不需要联网,不需要上传你的数据到云端。
2. AI 推理成本大幅下降
对于做 AI 产品的公司来说,推理成本是最大的痛点之一。内存用量砍到 1/6,直接意味着同样的 GPU 可以服务更多用户,或者用更便宜的硬件达到同样效果。
3. 超长上下文将成为标配
现在大模型处理 100K+ token 对话时又慢又贵,根本原因就是 KV Cache 太大。TurboQuant 如果落地,处理超长对话的成本会指数级下降。
我的判断
这不是一个会立刻改变世界的技术——毕竟从论文到产品化还有很长的路。
但它的意义在于,它证明了一个方向是可行的:不需要无限堆硬件,用更聪明的算法也能让 AI 变得更高效。 这跟 DeepSeek 之前做的事情是一个路线——不是拼谁的 GPU 多,而是拼谁的工程更精细。
华尔街之所以反应那么大(内存股集体暴跌),不是因为 TurboQuant 明天就会部署,而是因为它证明了一种可能性:AI 对内存的需求增长,可能没有之前预期的那么夸张。
这条赛道上的玩家,该紧张了。
参考来源:
- Google Research Blog: "TurboQuant: Redefining AI efficiency with extreme compression"
-
- TechCrunch: "Google unveils TurboQuant — and yes, the internet is calling it 'Pied Piper'"
-
- Tom's Hardware: "Google's TurboQuant compresses KV caches to 3 bits with no accuracy loss"
-
- VentureBeat: "Google's new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50%"