Anthropic 说 Opus 4.6 Fast 模式"速度提升 2.5 倍,智能水平不变"。这句话听起来像玄学。
模型参数没变,训练数据没变,同一个模型怎么突然就快了两倍多?要么是真有黑科技,要么是"不变"这两个字需要打引号。
我查了 Anthropic 的技术文档、相关论文和社区讨论,试着还原一下 Fast 模式背后可能用了哪些技术。
先说结论
Anthropic 没有公布 Fast 模式的具体实现细节。以下是基于公开信息的合理推测,不是官方说法。
大模型推理加速大致有四条路:
- 推测解码(Speculative Decoding)
- KV Cache 优化
- 模型蒸馏 / 剪枝
- 硬件和调度优化
Fast 模式大概率是前两条的组合,可能叠加了第四条。第三条(蒸馏)可能性不大——如果做了蒸馏,就不能说"同一个模型"了。
推测解码:用小模型猜,大模型验
这是目前推理加速领域最热的技术,Google 在 Gemini 上已经大规模部署了。
原理:大模型生成 token 是一个一个来的,每生成一个 token 都要跑一遍完整的前向传播,很慢。推测解码的思路是,先用一个小模型(Draft Model)快速生成一串候选 token,然后大模型一次性验证这串 token 哪些对、哪些错。对的留下,错的从出错的位置重新生成。
打个比方:你写邮件的时候,助理先帮你写个草稿,你看一遍,改几个词就发了。比你从头一个字一个字打快多了。
如果小模型的预测准确率在 70%-80%,大模型只需要做 1/3 到 1/4 的正式推理。这和 2.5 倍的加速比对得上。
Anthropic 旗下有 Haiku 这个小模型,参数量远小于 Opus,天然适合做 Draft Model。
KV Cache 优化:别重复算
Transformer 在生成每个新 token 的时候,需要用到之前所有 token 的 Key 和 Value 向量(KV)。这些向量存在显存里,叫 KV Cache。
问题是,Opus 4.6 支持最大 1M token 的上下文。100 万个 token 的 KV Cache 占用的显存是恐怖的。显存不够了就得卸载到内存甚至硬盘,速度断崖式下降。
优化方向有几个:
Multi-Query Attention(MQA)和 Grouped-Query Attention(GQA): 让多个注意力头共享同一组 KV 向量,减少存储量。这个大概率在模型训练阶段就做了。
KV Cache 量化: 把 FP16 的 KV 向量压缩成 INT8 或 INT4。精度损失很小,显存占用减半到减 75%。
分页注意力(PagedAttention): vLLM 团队搞出来的技术,把 KV Cache 像操作系统管理内存一样分页管理,减少碎片化。这个基本是行业标配了。
Fast 模式可能在 KV Cache 的压缩和管理上做得更激进。标准模式保守一点,保证精度;Fast 模式压得狠一点,换取更高的吞吐。
硬件层面:专用推理芯片?
Anthropic 去年拿了 Google 和 Amazon 的投资,AWS 和 GCP 上都有部署。Fast 模式有可能用了不同的硬件集群。
比如在 AWS 上,Anthropic 可以用 Inferentia2 芯片做推理,这个芯片专为 Transformer 推理设计,吞吐量比通用 GPU 高不少。标准模式跑在通用 GPU 上,Fast 模式跑在专用推理芯片上,就能解释速度差异。
这条路线不需要改模型本身,只需要做推理框架的适配。
那"智能不变"可信吗
看你怎么定义"不变"。
如果用的是推测解码,理论上最终结果应该和标准模式一致——大模型验证环节保证了输出质量。但实际部署中,为了追求更高的加速比,可能会放宽验证的严格程度。比如设一个较高的接受阈值,让一些"差不多对"的 token 也通过。
如果叠加了 KV Cache 量化,精度会有轻微损失。日常任务看不出来,但在需要长距离依赖的复杂推理中,可能会丢信息。
所以"智能不变"大概率是"在大多数任务上看不出差别"的意思,不是"数学上等价"。
这也符合实际测试的结果:简单任务没区别,复杂任务偶尔差一点。
和竞品的加速路线对比
| 厂商 | 加速方案 | 加速倍数 | 备注 |
|---|---|---|---|
| Anthropic(Fast) | 推测解码 + KV 优化(推测) | 2.5x | 同模型加速 |
| OpenAI(GPT-5.3 Codex) | 架构优化(比 5.2 快 25%) | 1.25x | 新模型,非同模型对比 |
| Google(Gemini Flash) | 蒸馏 + 推测解码 | 5-10x | 独立小模型,非同模型 |
三家走的路不一样。Google 直接蒸馏出一个小模型,速度最快但智能打折明显。OpenAI 做架构层面的优化,每代模型都比上代快一点。Anthropic 的做法比较特别:同一个模型给你两种速度选择。
这种"同模型双模式"的策略其实挺聪明。用户不用学新模型名字,不用改提示词,只需要加一个参数就能切换。API 层面的用户体验是最好的。
这对开发者意味着什么
技术细节之外,Fast 模式的出现说明一件事:大模型正在从"比谁聪明"过渡到"比谁又快又聪明"。
这是成熟化的标志。当模型能力拉不开差距的时候,推理效率就成了差异化的关键。
对开发者来说,值得关注的是:
- API 设计会越来越灵活。 速度、质量、成本三个维度将来可能都能调。
- 推理成本会持续下降。 推测解码和 KV 优化都不需要重新训练模型,属于"免费"的加速。
- 应用架构可以更激进。 以前因为延迟太高不敢做的实时 AI 功能,现在可以重新考虑了。