Opus 4.6 Fast 模式凭什么快 2.5 倍？拆解 Anthropic 的推理加速路线Anthropic 说 O

Anthropic 说 Opus 4.6 Fast 模式"速度提升 2.5 倍，智能水平不变"。这句话听起来像玄学。

模型参数没变，训练数据没变，同一个模型怎么突然就快了两倍多？要么是真有黑科技，要么是"不变"这两个字需要打引号。

我查了 Anthropic 的技术文档、相关论文和社区讨论，试着还原一下 Fast 模式背后可能用了哪些技术。

先说结论

Anthropic 没有公布 Fast 模式的具体实现细节。以下是基于公开信息的合理推测，不是官方说法。

大模型推理加速大致有四条路：

Fast 模式大概率是前两条的组合，可能叠加了第四条。第三条（蒸馏）可能性不大——如果做了蒸馏，就不能说"同一个模型"了。

这是目前推理加速领域最热的技术，Google 在 Gemini 上已经大规模部署了。

原理：大模型生成 token 是一个一个来的，每生成一个 token 都要跑一遍完整的前向传播，很慢。推测解码的思路是，先用一个小模型（Draft Model）快速生成一串候选 token，然后大模型一次性验证这串 token 哪些对、哪些错。对的留下，错的从出错的位置重新生成。

打个比方：你写邮件的时候，助理先帮你写个草稿，你看一遍，改几个词就发了。比你从头一个字一个字打快多了。

如果小模型的预测准确率在 70%-80%，大模型只需要做 1/3 到 1/4 的正式推理。这和 2.5 倍的加速比对得上。

Anthropic 旗下有 Haiku 这个小模型，参数量远小于 Opus，天然适合做 Draft Model。

Transformer 在生成每个新 token 的时候，需要用到之前所有 token 的 Key 和 Value 向量（KV）。这些向量存在显存里，叫 KV Cache。

问题是，Opus 4.6 支持最大 1M token 的上下文。100 万个 token 的 KV Cache 占用的显存是恐怖的。显存不够了就得卸载到内存甚至硬盘，速度断崖式下降。

优化方向有几个：

Multi-Query Attention（MQA）和 Grouped-Query Attention（GQA）： 让多个注意力头共享同一组 KV 向量，减少存储量。这个大概率在模型训练阶段就做了。

KV Cache 量化： 把 FP16 的 KV 向量压缩成 INT8 或 INT4。精度损失很小，显存占用减半到减 75%。

分页注意力（PagedAttention）： vLLM 团队搞出来的技术，把 KV Cache 像操作系统管理内存一样分页管理，减少碎片化。这个基本是行业标配了。

Fast 模式可能在 KV Cache 的压缩和管理上做得更激进。标准模式保守一点，保证精度；Fast 模式压得狠一点，换取更高的吞吐。

Anthropic 去年拿了 Google 和 Amazon 的投资，AWS 和 GCP 上都有部署。Fast 模式有可能用了不同的硬件集群。

比如在 AWS 上，Anthropic 可以用 Inferentia2 芯片做推理，这个芯片专为 Transformer 推理设计，吞吐量比通用 GPU 高不少。标准模式跑在通用 GPU 上，Fast 模式跑在专用推理芯片上，就能解释速度差异。

这条路线不需要改模型本身，只需要做推理框架的适配。

看你怎么定义"不变"。

如果用的是推测解码，理论上最终结果应该和标准模式一致——大模型验证环节保证了输出质量。但实际部署中，为了追求更高的加速比，可能会放宽验证的严格程度。比如设一个较高的接受阈值，让一些"差不多对"的 token 也通过。

如果叠加了 KV Cache 量化，精度会有轻微损失。日常任务看不出来，但在需要长距离依赖的复杂推理中，可能会丢信息。

所以"智能不变"大概率是"在大多数任务上看不出差别"的意思，不是"数学上等价"。

这也符合实际测试的结果：简单任务没区别，复杂任务偶尔差一点。

三家走的路不一样。Google 直接蒸馏出一个小模型，速度最快但智能打折明显。OpenAI 做架构层面的优化，每代模型都比上代快一点。Anthropic 的做法比较特别：同一个模型给你两种速度选择。

这种"同模型双模式"的策略其实挺聪明。用户不用学新模型名字，不用改提示词，只需要加一个参数就能切换。API 层面的用户体验是最好的。

技术细节之外，Fast 模式的出现说明一件事：大模型正在从"比谁聪明"过渡到"比谁又快又聪明"。

这是成熟化的标志。当模型能力拉不开差距的时候，推理效率就成了差异化的关键。

对开发者来说，值得关注的是：