Opus 4.6 Fast 模式凭什么快 2.5 倍?拆解 Anthropic 的推理加速路线

3 阅读5分钟

Anthropic 说 Opus 4.6 Fast 模式"速度提升 2.5 倍,智能水平不变"。这句话听起来像玄学。

模型参数没变,训练数据没变,同一个模型怎么突然就快了两倍多?要么是真有黑科技,要么是"不变"这两个字需要打引号。

我查了 Anthropic 的技术文档、相关论文和社区讨论,试着还原一下 Fast 模式背后可能用了哪些技术。

先说结论

Anthropic 没有公布 Fast 模式的具体实现细节。以下是基于公开信息的合理推测,不是官方说法。

大模型推理加速大致有四条路:

  1. 推测解码(Speculative Decoding)
  2. KV Cache 优化
  3. 模型蒸馏 / 剪枝
  4. 硬件和调度优化

Fast 模式大概率是前两条的组合,可能叠加了第四条。第三条(蒸馏)可能性不大——如果做了蒸馏,就不能说"同一个模型"了。

推测解码:用小模型猜,大模型验

这是目前推理加速领域最热的技术,Google 在 Gemini 上已经大规模部署了。

原理:大模型生成 token 是一个一个来的,每生成一个 token 都要跑一遍完整的前向传播,很慢。推测解码的思路是,先用一个小模型(Draft Model)快速生成一串候选 token,然后大模型一次性验证这串 token 哪些对、哪些错。对的留下,错的从出错的位置重新生成。

打个比方:你写邮件的时候,助理先帮你写个草稿,你看一遍,改几个词就发了。比你从头一个字一个字打快多了。

如果小模型的预测准确率在 70%-80%,大模型只需要做 1/3 到 1/4 的正式推理。这和 2.5 倍的加速比对得上。

Anthropic 旗下有 Haiku 这个小模型,参数量远小于 Opus,天然适合做 Draft Model。

KV Cache 优化:别重复算

Transformer 在生成每个新 token 的时候,需要用到之前所有 token 的 Key 和 Value 向量(KV)。这些向量存在显存里,叫 KV Cache。

问题是,Opus 4.6 支持最大 1M token 的上下文。100 万个 token 的 KV Cache 占用的显存是恐怖的。显存不够了就得卸载到内存甚至硬盘,速度断崖式下降。

优化方向有几个:

Multi-Query Attention(MQA)和 Grouped-Query Attention(GQA): 让多个注意力头共享同一组 KV 向量,减少存储量。这个大概率在模型训练阶段就做了。

KV Cache 量化: 把 FP16 的 KV 向量压缩成 INT8 或 INT4。精度损失很小,显存占用减半到减 75%。

分页注意力(PagedAttention): vLLM 团队搞出来的技术,把 KV Cache 像操作系统管理内存一样分页管理,减少碎片化。这个基本是行业标配了。

Fast 模式可能在 KV Cache 的压缩和管理上做得更激进。标准模式保守一点,保证精度;Fast 模式压得狠一点,换取更高的吞吐。

硬件层面:专用推理芯片?

Anthropic 去年拿了 Google 和 Amazon 的投资,AWS 和 GCP 上都有部署。Fast 模式有可能用了不同的硬件集群。

比如在 AWS 上,Anthropic 可以用 Inferentia2 芯片做推理,这个芯片专为 Transformer 推理设计,吞吐量比通用 GPU 高不少。标准模式跑在通用 GPU 上,Fast 模式跑在专用推理芯片上,就能解释速度差异。

这条路线不需要改模型本身,只需要做推理框架的适配。

那"智能不变"可信吗

看你怎么定义"不变"。

如果用的是推测解码,理论上最终结果应该和标准模式一致——大模型验证环节保证了输出质量。但实际部署中,为了追求更高的加速比,可能会放宽验证的严格程度。比如设一个较高的接受阈值,让一些"差不多对"的 token 也通过。

如果叠加了 KV Cache 量化,精度会有轻微损失。日常任务看不出来,但在需要长距离依赖的复杂推理中,可能会丢信息。

所以"智能不变"大概率是"在大多数任务上看不出差别"的意思,不是"数学上等价"。

这也符合实际测试的结果:简单任务没区别,复杂任务偶尔差一点。

和竞品的加速路线对比

厂商加速方案加速倍数备注
Anthropic(Fast)推测解码 + KV 优化(推测)2.5x同模型加速
OpenAI(GPT-5.3 Codex)架构优化(比 5.2 快 25%)1.25x新模型,非同模型对比
Google(Gemini Flash)蒸馏 + 推测解码5-10x独立小模型,非同模型

三家走的路不一样。Google 直接蒸馏出一个小模型,速度最快但智能打折明显。OpenAI 做架构层面的优化,每代模型都比上代快一点。Anthropic 的做法比较特别:同一个模型给你两种速度选择。

这种"同模型双模式"的策略其实挺聪明。用户不用学新模型名字,不用改提示词,只需要加一个参数就能切换。API 层面的用户体验是最好的。

这对开发者意味着什么

技术细节之外,Fast 模式的出现说明一件事:大模型正在从"比谁聪明"过渡到"比谁又快又聪明"。

这是成熟化的标志。当模型能力拉不开差距的时候,推理效率就成了差异化的关键。

对开发者来说,值得关注的是:

  1. API 设计会越来越灵活。 速度、质量、成本三个维度将来可能都能调。
  2. 推理成本会持续下降。 推测解码和 KV 优化都不需要重新训练模型,属于"免费"的加速。
  3. 应用架构可以更激进。 以前因为延迟太高不敢做的实时 AI 功能,现在可以重新考虑了。