Claude Opus 4.8：Anthropic 花 41 天给自己擦了一次屁股5 月 28 日，Anthropic

不废话，一句话： 同价上市，SWE-bench Pro 从 64.3% 冲到 69.2%，输出 token 比 4.7 少了约 35%，Fast Mode 快了 2.5 倍还便宜了 3 倍——Opus 4.8 就是 4.7 本来该有的样子。

5 月 28 日，Anthropic 发了 Claude Opus 4.8——距离 4 月 16 日的 4.7，才隔了 41 天。对比一下，Sonnet 4.6 是三个月前发的，Haiku 4.5 已经七个月了。这种节奏对 Anthropic 来说极其反常。

为什么这么快？Reddit 上那个 2300 赞的帖子说得很直白："Opus 4.7 is not an upgrade but a serious regression"。

一、自我坦白吧：这是 Opus 4.7 的紧急翻修

4.7 发布之后，开发者社区的反应大概是 Anthropic 历史上最冷的一次。吐槽主要集中在三个地方：

工具调用神经刀——该调函数的时候不动，不该调的时候瞎调
注释膨胀——生成的注释比代码还长，感觉模型在自我感动
Adaptive Reasoning 名不副实——关了反而退回 4.6

Opus 4.8 就是冲着这三个问题去的。Cursor 和 Devin 的 CEO 在发布当天就出来站台，说"4.8 修掉了 4.7 的注释冗长和工具调用问题"。Anthropic 自己的说法更直接：代码缺陷的漏报率降了 4 倍——说白了就是模型更愿意承认"我不确定这段代码对不对"。

二、程序猿们：这次真的能用了

2.1 工具调用：终于不用替它操心

4.7 最让人烦的就是工具触发——你明明给它配了函数，它偏要自己硬猜。4.8 在这个层面的改进不太像是简单微调，更像是推理阶段本身就知道"什么时候该用工具"。Cursor 的内部数据说，"4.8 用更少的工具调用步数，做到了同样甚至更好的结果"。

我们自己在跑 Hermes Agent 也有同感：工具调用靠不靠谱，直接决定 agent 工作流能不能闭环。4.7 那种"调不调都犹豫"的毛病，导致很多任务需要人工介入收尾。如果 4.8 真能把这个修了，那就算基准分没涨，对跑自动化的人也是大升级。

2.2 编码：SWE-bench Pro 69.2%，这数字有分量

从 64.3% 到 69.2%——在高分段能跳差不多 5 个点，不太容易。

模型	SWE-bench Pro	OSWorld-Verified	HLE (with tools)
Opus 4.8	69.2%	83.4%	57.9%
Opus 4.7	64.3%	82.8%	54.7%
GPT-5.5	58.6%	78.7%	~51%
Opus 4.6	54.2%	76.2%	—

但比分数更有意思的是效率——完成同样的任务，4.8 输出的 token 比 4.7 少了约 35%。对天天写代码的人来说，这就是实打实的钱：活一样，花更少。所谓"同价"不只是挂牌价不变，是每干完一件事花的钱确实变少了。

2.3 Dynamic Workflows：可能是今年最值得关注的功能

虽然还是 research preview，但 Dynamic Workflows 值得多说两句。Claude Code 现在能做的事：

自己拆任务
同时派几百个子 Agent 出去干活
让它们互相驳对方的结论
收敛出一份结果

Anthropic 的原话是"按季度规划的工作，几天内做完"。Klarna 的工程总监也给了背书，说"拿到了传统静态分析发现不了的死代码"。

对开发者来说，这意味着：框架迁移、API 废弃替换、语言移植、大规模安全审计这些原本要整个团队按 Sprint 排期的活，现在开一个 Claude Code session 就行了。

但坑也得说：真的很能烧 token，启动前会弹确认框劝你三思。而且 research preview 的东西，投产就别想了。

2.4 中途改 System Message

Messages API 现在允许在 messages 数组中间插 system 条目。看起来是小事，但对 agent 类工作流影响很大——你不用为了改一句指令把整个 prompt cache 清掉了。长链条工具调用的时候，可以一边保持上下文缓存，一边动态调 agent 的行为。

2.5 Fast Mode：便宜了三倍

Fast Mode 从之前的 $30/$ 150 降到 $10/$ 50，速度快了 2.5 倍。对延迟敏感的生产场景，这个改变比任何基准分都实际。不过 API 还得排 waitlist，现在只有 Claude Code 里能直接打 /fast。

三、产品层面：Anthropic 这次怎么出牌

3.1 不加价：这就是最好的营销

Opus 4.8 价格还是 $5/$ 25。在 GPT-5.5、Gemini 3.1 Pro、DeepSeek V4 Pro 都在打价格战的时候，Anthropic 选择"升性能不升价"。不过有一点他们没提：4.8 的 tokenizer 和 4.7 一样（不是 4.6 那个），从 4.6 迁移过来的人可能面临 0-35% 的输入成本上涨，尤其在代码和 JSON 上。

3.2 Effort Control：你们不是不信自适应吗？那自己选

claude.ai 和 Cowork 现在开放了 effort 级别（low / high / extra），Claude Code 里有 high / xhigh / max。这件事的潜台词其实挺有意思的："你们觉得我们的'自适应思考'不靠谱对吧？行，你们自己选。"

这种"交还控制权"的做法，本质上是对 4.7 Adaptive Thinking 口碑翻车的一次认错——既然用户不相信自动决策，那就把开关掰过来。

3.3 "诚实"作为卖点

Anthropic 把 Opus 4.8 定位成"迄今最诚实的模型"——更少胡说八道、更少讨好用户、更愿意说"不确定"。

说实话这招挺聪明的。Agent 越来越普及，"会撒谎的 AI"已经成了行业级问题。代码审查时无声通过的 bug、金融分析里编出来的引用数据——都是生产环境踩过的坑。把"诚实"做成产品特性，是在打企业级信任这张牌。

3.4 Dynamic Workflows

从产品形态看，Dynamic Workflows 在走一条很明确的路：从"AI 写代码助手"变成"AI 工程团队" 。Claude Code 从一个对话式工具往自主编排平台的方向进化，这不是加功能，是产品形态升级。

四、商业与竞争

4.1 实力对决 --- GPT-5.5

维度	Opus 4.8	GPT-5.5
综合基准 (BenchLM)	93/100 (#2)	91/100 (#4)
编码	76.4	58.6
Agent 能力	80.1	81.5（领先 1.4）
知识理解	70.1	66.4
多模态	76.1	70.4
价格	$5/$ 25	$15/$ 60
上下文	1M	1M

编码上碾压式领先（+17.8），知识理解、多模态也全面占优，只在 Agent 场景差了一点点。而价格只有 GPT-5.5 的三分之一到一半。这个性价比差异短期很难被追上。

4.2 Mythos 要来了

Anthropic 在发布里反复提"Mythos-class models coming in the coming weeks"。意思是 Opus 4.8 可能就几周的生命期——等网络安全专用的 Mythos 完成安全审查、向所有客户开放，Opus 4.8 就会退居二线。

这个节奏耐人寻味：先拿 4.8 稳住局面，等 Mythos 的子弹上膛。4.8 可能只是过渡。

五、所以要不要迁？

你现在的状态	我的建议
在用 4.7	直接迁。同价，全部有提升，工具调用不抽风了
在用 4.6	先跑一次成本测试。tokenizer 变了，成本可能涨
在用 GPT-5.5	值得试试。尤其编码场景，便宜 2-3 倍还更强
日常用 Sonnet 4.6	日常继续用 Sonnet。复杂任务再切 Opus 4.8

说人话的总结： Opus 4.8 是 Anthropic 给 4.7 擦的一次挺成功的屁股。工具调用修了、编码效率上去了、价格没动——开发者最痛的地方基本都照顾到了。Dynamic Workflows 代表着"AI 从写代码的工具变成自己组织的工程团队"这个方向。但 Mythos 就在门口等着，4.8 可能真的只是一个过渡版本。在这个行业里，今天的 SOTA 明天可能就是"上一代"——你习惯了就好。

国产模型 VS Opus 4.8：差多少，差在哪，怎么选

四家国产旗舰（DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、MiniMax M2.7）和 Opus 4.8 的真实差距≈10-15 分的编码能力，但价格差了 10-80 倍。80% 的日常活国产已经够用——痛的是那"最后 15% 的长链条"。

Opus 4.8 一出来，绕不开的问题肯定是：国产现在到底追到哪了？

这个问题有两个面：一是纸面分差多少，二是实际用起来差在哪。

一、7 个维度拉一张表

维度	Opus 4.8	DeepSeek V4 Pro	GLM-5.1	Kimi K2.6	MiniMax M2.7
SWE-bench Pro	69.2% 🏆	55.4%	58.4%	58.6%	56.2%
Terminal-Bench 2.0	70.3% 🏆	67.9%	69.0%	66.7%	57.0%
GPQA Diamond	94.3% 🏆	90.1%	—	—	—
HLE (with tools)	57.9% 🏆	—	—	54.0%	—
价格（每百万 token）	$5 /$ 25	$0.44 /$ 0.87	订阅制	$0.60 /$ 2.40	$0.30 /$ 1.20

三件事很明显

1. 编码头部差距缩到 10-15 分了。 GLM-5.1 和 Kimi K2.6 的 SWE-bench Pro 分别 58.4% 和 58.6%，Opus 4.8 是 69.2%。差距在，但不是断崖。

2. 终端工程几乎追平了。 GLM-5.1 的 Terminal-Bench 2.0 拿了 69.0%，Opus 4.8 是 70.3%——差 1.3 个点。

3. 日常编码已经没啥差距了。 SWE-bench Verified（更简单的代码修复）上，DeepSeek、Kimi、MiniMax 都在 80% 左右，Opus 4.7 也就 80.8%。

二、四家国产各自什么水平

DeepSeek V4 Pro——价格太狠了，但长链条还是不稳

好的地方： $0.44 的价格只有 Opus 的 1/11。LiveCodeBench 打到 93.5（超 Opus 4.7 的 88.8）。Codeforces ELO 3206 是所有模型最高。38 项金融分析任务和 Opus 4.7 打得有来有回。

不行的地方： SWE-bench Pro 只有 55.4%，和 Opus 4.8 差了 14 分。跨文件、多步规划的真实工程，DeepSeek 的"长链条稳定性"差一档。GPQA 90.1% vs 94.3%，复杂推理也差点。

实际感受： FundaAI 的 38 项实测里，DeepSeek "做分析"不输 Opus，但"执行多步任务"超时率更高。挂 DeepClaude 框架能跑到 89 分，裸 DeepSeek 只有 69——问题不在模型本身，在 agent 框架的原生适配还没跟上。

GLM-5.1——纸面最强，实际落差最大

好的地方： SWE-bench Pro 58.4%，Terminal-Bench 2.0 69.0%，两项都是国产最高。GLM 在工程编码上确实走得最稳。知乎社区风评也是三家里最好的（"三家里最划算"）。

不行的地方： 慢到让人抓狂——高峰期不到 30 TPS（Opus 至少 2-3 倍），还频繁错误码429。AkitaOnRails 的 24 模型实测里，GLM-5.1 只拿了 46 分，和 MiniMax（41 分）一起垫底，连 Qwen 3.6 Plus（71 分）都没打过——生成的代码不兼容测试框架。

实际感受： GLM-5.1 的 Benchmark 分和实际体验之间的差距可能是四家里最大的。官方分喊得高，但真实编码里"开箱即用"的程度远不如 Kimi 和 DeepSeek。而且它闭源 + 订阅制，生态集成最差。

Kimi K2.6——最像 Opus 的国产模型

好的地方： SWE-bench Pro 58.6%（国产最高，和 GLM 并列），SWE-bench Verified 80.2%。BrowseComp 83.2%（超 GPT-5.4 的 82.7%）。最让我意外的是它能自己跑 12 小时的编码任务、4000 多次工具调用不断线——这个"存活能力"国产独一份，Opus 4.8 也是主打这个。

不行的地方： 推理效率低——同样的问题，Opus 4.8 可能 1/2 到 1/6 的 token 就搞定了。K2.6 在复杂逻辑上会"顶着思考预算上限跑"。价格 $0.60 虽然便宜，但没到 DeepSeek 那种"白菜价"。

实际感受： 如果你只能选一个国产模型当主力，Kimi K2.6 是最安全的选择。长上下文稳、agent 能活、编码准。

MiniMax M2.7——参数最小但有巧劲

好的地方： SWE-bench Verified 80.2% 和 Kimi 一样。SWE Multilingual 76.5% 是四家最高——多语言代码处理确实强。参数量才 230B（激活 10B），部署门槛最低。

不行的地方： SWE-bench Pro 56.2%，Terminal-Bench 2.0 57.0%——深度工程推理明显落后。AkitaOnRails 只给了 41 分 C 级："发明了不存在的 batch API 签名，第一次调用就崩了"。

实际感受： 便宜 + 参数小是它的招牌，但实际编码的"开箱即用"质量不太稳定。适合大吞吐的结构化任务，复杂工程别想。

三、Opus 4.8 领先在哪，领先多少

差距层级	幅度	代表场景
大幅领先	>15%	SWE-bench Pro（69.2% vs ~56%）、GPQA Diamond（94.3% vs ~90%）
小幅领先	5-10%	HLE tools（57.9% vs 54.0%）、终端工程
基本持平	<5%	简单代码修复、多语言编码
国产反超	—	价格 10-80x、LiveCodeBench、Codeforces ELO

拆开来说：

硬编码（SWE-bench Pro） ：领先约 13 分。核心差距在长链条 agent 工作流——跨 10+ 文件的复杂修复，国产规划稳定性差一截
复杂推理（GPQA Diamond） ：领先约 4 分。科学推理是国产普遍弱项
工具调用效率：同样的活，Opus 用更少步数和更少 token。Kimi K2.6 的"思考效率"只有 1/2 到 1/6
生产稳定性：只有 Kimi K2.6 在这一点上接近 Opus。DeepSeek V4 Pro 的长链条 task timeout 率明显更高

四、怎么选

你的场景	选什么
日常编码	国产随便选，DeepSeek 或 Kimi，省 10-80 倍
多文件重构、框架迁移	Opus 4.8，长链条还是领先
大批量自动化 Agent	Kimi K2.6 主 + Opus 4.8 兜底，K2.6 12h 不掉线
预算敏感、高吞吐	DeepSeek V4 Flash（ $0.14/$ 0.28），便宜到可以忽略
科学推理、复杂分析	Opus 4.8，GPQA 94.3% 国产还摸不到
既要又要（性价比）	路由：Kimi 做日常，Opus 兜底难任务

五、说人话的趋势判断

国产追上来的是"上一个版本"。

2025 年国产旗舰对标 Opus 4.5，2026 年 4 月四连发追到 4.6-4.7 水平。然后 5 月底 Opus 4.8 刷新了上限。差距在缩小，但 Opus 换代也在加速——41 天一版，谁受得了。

更关键的是：Benchmark 是开卷考试，实际工程是闭卷考。

开卷差距：10-15 分（SWE-bench Pro）
闭卷差距：更大。国产的工具调用"开箱即用"、长链条稳定、agent 框架适配都还差一截
价格差距：10-80 倍——这才是国产最硬的底气

最后给个实在的建议： 高吞吐、有容错空间的日常活——国产已经管够。一条 bug 可能赔几百万的高风险活——Opus 4.8 还是更靠谱。最好的办法？路由。让便宜的干 80%，让旗舰兜底剩下的 20%。钱省了，质量也没落下。