不废话,一句话: 同价上市,SWE-bench Pro 从 64.3% 冲到 69.2%,输出 token 比 4.7 少了约 35%,Fast Mode 快了 2.5 倍还便宜了 3 倍——Opus 4.8 就是 4.7 本来该有的样子。
5 月 28 日,Anthropic 发了 Claude Opus 4.8——距离 4 月 16 日的 4.7,才隔了 41 天。对比一下,Sonnet 4.6 是三个月前发的,Haiku 4.5 已经七个月了。这种节奏对 Anthropic 来说极其反常。
为什么这么快?Reddit 上那个 2300 赞的帖子说得很直白:"Opus 4.7 is not an upgrade but a serious regression"。
一、自我坦白吧:这是 Opus 4.7 的紧急翻修
4.7 发布之后,开发者社区的反应大概是 Anthropic 历史上最冷的一次。吐槽主要集中在三个地方:
- 工具调用神经刀——该调函数的时候不动,不该调的时候瞎调
- 注释膨胀——生成的注释比代码还长,感觉模型在自我感动
- Adaptive Reasoning 名不副实——关了反而退回 4.6
Opus 4.8 就是冲着这三个问题去的。Cursor 和 Devin 的 CEO 在发布当天就出来站台,说"4.8 修掉了 4.7 的注释冗长和工具调用问题"。Anthropic 自己的说法更直接:代码缺陷的漏报率降了 4 倍——说白了就是模型更愿意承认"我不确定这段代码对不对"。
二、程序猿们:这次真的能用了
2.1 工具调用:终于不用替它操心
4.7 最让人烦的就是工具触发——你明明给它配了函数,它偏要自己硬猜。4.8 在这个层面的改进不太像是简单微调,更像是推理阶段本身就知道"什么时候该用工具"。Cursor 的内部数据说,"4.8 用更少的工具调用步数,做到了同样甚至更好的结果"。
我们自己在跑 Hermes Agent 也有同感:工具调用靠不靠谱,直接决定 agent 工作流能不能闭环。4.7 那种"调不调都犹豫"的毛病,导致很多任务需要人工介入收尾。如果 4.8 真能把这个修了,那就算基准分没涨,对跑自动化的人也是大升级。
2.2 编码:SWE-bench Pro 69.2%,这数字有分量
从 64.3% 到 69.2%——在高分段能跳差不多 5 个点,不太容易。
| 模型 | SWE-bench Pro | OSWorld-Verified | HLE (with tools) |
|---|---|---|---|
| Opus 4.8 | 69.2% | 83.4% | 57.9% |
| Opus 4.7 | 64.3% | 82.8% | 54.7% |
| GPT-5.5 | 58.6% | 78.7% | ~51% |
| Opus 4.6 | 54.2% | 76.2% | — |
但比分数更有意思的是效率——完成同样的任务,4.8 输出的 token 比 4.7 少了约 35%。对天天写代码的人来说,这就是实打实的钱:活一样,花更少。所谓"同价"不只是挂牌价不变,是每干完一件事花的钱确实变少了。
2.3 Dynamic Workflows:可能是今年最值得关注的功能
虽然还是 research preview,但 Dynamic Workflows 值得多说两句。Claude Code 现在能做的事:
- 自己拆任务
- 同时派几百个子 Agent 出去干活
- 让它们互相驳对方的结论
- 收敛出一份结果
Anthropic 的原话是"按季度规划的工作,几天内做完"。Klarna 的工程总监也给了背书,说"拿到了传统静态分析发现不了的死代码"。
对开发者来说,这意味着:框架迁移、API 废弃替换、语言移植、大规模安全审计这些原本要整个团队按 Sprint 排期的活,现在开一个 Claude Code session 就行了。
但坑也得说:真的很能烧 token,启动前会弹确认框劝你三思。而且 research preview 的东西,投产就别想了。
2.4 中途改 System Message
Messages API 现在允许在 messages 数组中间插 system 条目。看起来是小事,但对 agent 类工作流影响很大——你不用为了改一句指令把整个 prompt cache 清掉了。长链条工具调用的时候,可以一边保持上下文缓存,一边动态调 agent 的行为。
2.5 Fast Mode:便宜了三倍
Fast Mode 从之前的 150 降到 50,速度快了 2.5 倍。对延迟敏感的生产场景,这个改变比任何基准分都实际。不过 API 还得排 waitlist,现在只有 Claude Code 里能直接打 /fast。
三、产品层面:Anthropic 这次怎么出牌
3.1 不加价:这就是最好的营销
Opus 4.8 价格还是 25。在 GPT-5.5、Gemini 3.1 Pro、DeepSeek V4 Pro 都在打价格战的时候,Anthropic 选择"升性能不升价"。不过有一点他们没提:4.8 的 tokenizer 和 4.7 一样(不是 4.6 那个),从 4.6 迁移过来的人可能面临 0-35% 的输入成本上涨,尤其在代码和 JSON 上。
3.2 Effort Control:你们不是不信自适应吗?那自己选
claude.ai 和 Cowork 现在开放了 effort 级别(low / high / extra),Claude Code 里有 high / xhigh / max。这件事的潜台词其实挺有意思的:"你们觉得我们的'自适应思考'不靠谱对吧?行,你们自己选。"
这种"交还控制权"的做法,本质上是对 4.7 Adaptive Thinking 口碑翻车的一次认错——既然用户不相信自动决策,那就把开关掰过来。
3.3 "诚实"作为卖点
Anthropic 把 Opus 4.8 定位成"迄今最诚实的模型"——更少胡说八道、更少讨好用户、更愿意说"不确定"。
说实话这招挺聪明的。Agent 越来越普及,"会撒谎的 AI"已经成了行业级问题。代码审查时无声通过的 bug、金融分析里编出来的引用数据——都是生产环境踩过的坑。把"诚实"做成产品特性,是在打企业级信任这张牌。
3.4 Dynamic Workflows
从产品形态看,Dynamic Workflows 在走一条很明确的路:从"AI 写代码助手"变成"AI 工程团队" 。Claude Code 从一个对话式工具往自主编排平台的方向进化,这不是加功能,是产品形态升级。
四、商业与竞争
4.1 实力对决 --- GPT-5.5
| 维度 | Opus 4.8 | GPT-5.5 |
|---|---|---|
| 综合基准 (BenchLM) | 93/100 (#2) | 91/100 (#4) |
| 编码 | 76.4 | 58.6 |
| Agent 能力 | 80.1 | 81.5(领先 1.4) |
| 知识理解 | 70.1 | 66.4 |
| 多模态 | 76.1 | 70.4 |
| 价格 | 25 | 60 |
| 上下文 | 1M | 1M |
编码上碾压式领先(+17.8),知识理解、多模态也全面占优,只在 Agent 场景差了一点点。而价格只有 GPT-5.5 的三分之一到一半。这个性价比差异短期很难被追上。
4.2 Mythos 要来了
Anthropic 在发布里反复提"Mythos-class models coming in the coming weeks"。意思是 Opus 4.8 可能就几周的生命期——等网络安全专用的 Mythos 完成安全审查、向所有客户开放,Opus 4.8 就会退居二线。
这个节奏耐人寻味:先拿 4.8 稳住局面,等 Mythos 的子弹上膛。4.8 可能只是过渡。
五、所以要不要迁?
| 你现在的状态 | 我的建议 |
|---|---|
| 在用 4.7 | 直接迁。同价,全部有提升,工具调用不抽风了 |
| 在用 4.6 | 先跑一次成本测试。tokenizer 变了,成本可能涨 |
| 在用 GPT-5.5 | 值得试试。尤其编码场景,便宜 2-3 倍还更强 |
| 日常用 Sonnet 4.6 | 日常继续用 Sonnet。复杂任务再切 Opus 4.8 |
说人话的总结: Opus 4.8 是 Anthropic 给 4.7 擦的一次挺成功的屁股。工具调用修了、编码效率上去了、价格没动——开发者最痛的地方基本都照顾到了。Dynamic Workflows 代表着"AI 从写代码的工具变成自己组织的工程团队"这个方向。但 Mythos 就在门口等着,4.8 可能真的只是一个过渡版本。在这个行业里,今天的 SOTA 明天可能就是"上一代"——你习惯了就好。
国产模型 VS Opus 4.8:差多少,差在哪,怎么选
四家国产旗舰(DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、MiniMax M2.7)和 Opus 4.8 的真实差距≈10-15 分的编码能力,但价格差了 10-80 倍。80% 的日常活国产已经够用——痛的是那"最后 15% 的长链条"。
Opus 4.8 一出来,绕不开的问题肯定是:国产现在到底追到哪了?
这个问题有两个面:一是纸面分差多少,二是实际用起来差在哪。
一、7 个维度拉一张表
| 维度 | Opus 4.8 | DeepSeek V4 Pro | GLM-5.1 | Kimi K2.6 | MiniMax M2.7 |
|---|---|---|---|---|---|
| SWE-bench Pro | 69.2% 🏆 | 55.4% | 58.4% | 58.6% | 56.2% |
| Terminal-Bench 2.0 | 70.3% 🏆 | 67.9% | 69.0% | 66.7% | 57.0% |
| GPQA Diamond | 94.3% 🏆 | 90.1% | — | — | — |
| HLE (with tools) | 57.9% 🏆 | — | — | 54.0% | — |
| 价格(每百万 token) | 25 | 0.87 | 订阅制 | 2.40 | 1.20 |
三件事很明显
1. 编码头部差距缩到 10-15 分了。 GLM-5.1 和 Kimi K2.6 的 SWE-bench Pro 分别 58.4% 和 58.6%,Opus 4.8 是 69.2%。差距在,但不是断崖。
2. 终端工程几乎追平了。 GLM-5.1 的 Terminal-Bench 2.0 拿了 69.0%,Opus 4.8 是 70.3%——差 1.3 个点。
3. 日常编码已经没啥差距了。 SWE-bench Verified(更简单的代码修复)上,DeepSeek、Kimi、MiniMax 都在 80% 左右,Opus 4.7 也就 80.8%。
二、四家国产各自什么水平
DeepSeek V4 Pro——价格太狠了,但长链条还是不稳
好的地方: $0.44 的价格只有 Opus 的 1/11。LiveCodeBench 打到 93.5(超 Opus 4.7 的 88.8)。Codeforces ELO 3206 是所有模型最高。38 项金融分析任务和 Opus 4.7 打得有来有回。
不行的地方: SWE-bench Pro 只有 55.4%,和 Opus 4.8 差了 14 分。跨文件、多步规划的真实工程,DeepSeek 的"长链条稳定性"差一档。GPQA 90.1% vs 94.3%,复杂推理也差点。
实际感受: FundaAI 的 38 项实测里,DeepSeek "做分析"不输 Opus,但"执行多步任务"超时率更高。挂 DeepClaude 框架能跑到 89 分,裸 DeepSeek 只有 69——问题不在模型本身,在 agent 框架的原生适配还没跟上。
GLM-5.1——纸面最强,实际落差最大
好的地方: SWE-bench Pro 58.4%,Terminal-Bench 2.0 69.0%,两项都是国产最高。GLM 在工程编码上确实走得最稳。知乎社区风评也是三家里最好的("三家里最划算")。
不行的地方: 慢到让人抓狂——高峰期不到 30 TPS(Opus 至少 2-3 倍),还频繁错误码429。AkitaOnRails 的 24 模型实测里,GLM-5.1 只拿了 46 分,和 MiniMax(41 分)一起垫底,连 Qwen 3.6 Plus(71 分)都没打过——生成的代码不兼容测试框架。
实际感受: GLM-5.1 的 Benchmark 分和实际体验之间的差距可能是四家里最大的。官方分喊得高,但真实编码里"开箱即用"的程度远不如 Kimi 和 DeepSeek。而且它闭源 + 订阅制,生态集成最差。
Kimi K2.6——最像 Opus 的国产模型
好的地方: SWE-bench Pro 58.6%(国产最高,和 GLM 并列),SWE-bench Verified 80.2%。BrowseComp 83.2%(超 GPT-5.4 的 82.7%)。最让我意外的是它能自己跑 12 小时的编码任务、4000 多次工具调用不断线——这个"存活能力"国产独一份,Opus 4.8 也是主打这个。
不行的地方: 推理效率低——同样的问题,Opus 4.8 可能 1/2 到 1/6 的 token 就搞定了。K2.6 在复杂逻辑上会"顶着思考预算上限跑"。价格 $0.60 虽然便宜,但没到 DeepSeek 那种"白菜价"。
实际感受: 如果你只能选一个国产模型当主力,Kimi K2.6 是最安全的选择。长上下文稳、agent 能活、编码准。
MiniMax M2.7——参数最小但有巧劲
好的地方: SWE-bench Verified 80.2% 和 Kimi 一样。SWE Multilingual 76.5% 是四家最高——多语言代码处理确实强。参数量才 230B(激活 10B),部署门槛最低。
不行的地方: SWE-bench Pro 56.2%,Terminal-Bench 2.0 57.0%——深度工程推理明显落后。AkitaOnRails 只给了 41 分 C 级:"发明了不存在的 batch API 签名,第一次调用就崩了"。
实际感受: 便宜 + 参数小是它的招牌,但实际编码的"开箱即用"质量不太稳定。适合大吞吐的结构化任务,复杂工程别想。
三、Opus 4.8 领先在哪,领先多少
| 差距层级 | 幅度 | 代表场景 |
|---|---|---|
| 大幅领先 | >15% | SWE-bench Pro(69.2% vs ~56%)、GPQA Diamond(94.3% vs ~90%) |
| 小幅领先 | 5-10% | HLE tools(57.9% vs 54.0%)、终端工程 |
| 基本持平 | <5% | 简单代码修复、多语言编码 |
| 国产反超 | — | 价格 10-80x、LiveCodeBench、Codeforces ELO |
拆开来说:
- 硬编码(SWE-bench Pro) :领先约 13 分。核心差距在长链条 agent 工作流——跨 10+ 文件的复杂修复,国产规划稳定性差一截
- 复杂推理(GPQA Diamond) :领先约 4 分。科学推理是国产普遍弱项
- 工具调用效率:同样的活,Opus 用更少步数和更少 token。Kimi K2.6 的"思考效率"只有 1/2 到 1/6
- 生产稳定性:只有 Kimi K2.6 在这一点上接近 Opus。DeepSeek V4 Pro 的长链条 task timeout 率明显更高
四、怎么选
| 你的场景 | 选什么 |
|---|---|
| 日常编码 | 国产随便选,DeepSeek 或 Kimi,省 10-80 倍 |
| 多文件重构、框架迁移 | Opus 4.8,长链条还是领先 |
| 大批量自动化 Agent | Kimi K2.6 主 + Opus 4.8 兜底,K2.6 12h 不掉线 |
| 预算敏感、高吞吐 | DeepSeek V4 Flash(0.28),便宜到可以忽略 |
| 科学推理、复杂分析 | Opus 4.8,GPQA 94.3% 国产还摸不到 |
| 既要又要(性价比) | 路由:Kimi 做日常,Opus 兜底难任务 |
五、说人话的趋势判断
国产追上来的是"上一个版本"。
2025 年国产旗舰对标 Opus 4.5,2026 年 4 月四连发追到 4.6-4.7 水平。然后 5 月底 Opus 4.8 刷新了上限。差距在缩小,但 Opus 换代也在加速——41 天一版,谁受得了。
更关键的是:Benchmark 是开卷考试,实际工程是闭卷考。
- 开卷差距:10-15 分(SWE-bench Pro)
- 闭卷差距:更大。国产的工具调用"开箱即用"、长链条稳定、agent 框架适配都还差一截
- 价格差距:10-80 倍——这才是国产最硬的底气
最后给个实在的建议: 高吞吐、有容错空间的日常活——国产已经管够。一条 bug 可能赔几百万的高风险活——Opus 4.8 还是更靠谱。最好的办法?路由。让便宜的干 80%,让旗舰兜底剩下的 20%。钱省了,质量也没落下。