Claude Opus 4.8:Anthropic 花 41 天给自己擦了一次屁股

0 阅读10分钟

不废话,一句话: 同价上市,SWE-bench Pro 从 64.3% 冲到 69.2%,输出 token 比 4.7 少了约 35%,Fast Mode 快了 2.5 倍还便宜了 3 倍——Opus 4.8 就是 4.7 本来该有的样子。

5 月 28 日,Anthropic 发了 Claude Opus 4.8——距离 4 月 16 日的 4.7,才隔了 41 天。对比一下,Sonnet 4.6 是三个月前发的,Haiku 4.5 已经七个月了。这种节奏对 Anthropic 来说极其反常。

为什么这么快?Reddit 上那个 2300 赞的帖子说得很直白:"Opus 4.7 is not an upgrade but a serious regression"。


一、自我坦白吧:这是 Opus 4.7 的紧急翻修

4.7 发布之后,开发者社区的反应大概是 Anthropic 历史上最冷的一次。吐槽主要集中在三个地方:

  • 工具调用神经刀——该调函数的时候不动,不该调的时候瞎调
  • 注释膨胀——生成的注释比代码还长,感觉模型在自我感动
  • Adaptive Reasoning 名不副实——关了反而退回 4.6

Opus 4.8 就是冲着这三个问题去的。Cursor 和 Devin 的 CEO 在发布当天就出来站台,说"4.8 修掉了 4.7 的注释冗长和工具调用问题"。Anthropic 自己的说法更直接:代码缺陷的漏报率降了 4 倍——说白了就是模型更愿意承认"我不确定这段代码对不对"。

二、程序猿们:这次真的能用了

2.1 工具调用:终于不用替它操心

4.7 最让人烦的就是工具触发——你明明给它配了函数,它偏要自己硬猜。4.8 在这个层面的改进不太像是简单微调,更像是推理阶段本身就知道"什么时候该用工具"。Cursor 的内部数据说,"4.8 用更少的工具调用步数,做到了同样甚至更好的结果"。

我们自己在跑 Hermes Agent 也有同感:工具调用靠不靠谱,直接决定 agent 工作流能不能闭环。4.7 那种"调不调都犹豫"的毛病,导致很多任务需要人工介入收尾。如果 4.8 真能把这个修了,那就算基准分没涨,对跑自动化的人也是大升级。

2.2 编码:SWE-bench Pro 69.2%,这数字有分量

从 64.3% 到 69.2%——在高分段能跳差不多 5 个点,不太容易。

模型SWE-bench ProOSWorld-VerifiedHLE (with tools)
Opus 4.869.2%83.4%57.9%
Opus 4.764.3%82.8%54.7%
GPT-5.558.6%78.7%~51%
Opus 4.654.2%76.2%

但比分数更有意思的是效率——完成同样的任务,4.8 输出的 token 比 4.7 少了约 35%。对天天写代码的人来说,这就是实打实的钱:活一样,花更少。所谓"同价"不只是挂牌价不变,是每干完一件事花的钱确实变少了。

2.3 Dynamic Workflows:可能是今年最值得关注的功能

虽然还是 research preview,但 Dynamic Workflows 值得多说两句。Claude Code 现在能做的事:

  1. 自己拆任务
  2. 同时派几百个子 Agent 出去干活
  3. 让它们互相驳对方的结论
  4. 收敛出一份结果

Anthropic 的原话是"按季度规划的工作,几天内做完"。Klarna 的工程总监也给了背书,说"拿到了传统静态分析发现不了的死代码"。

对开发者来说,这意味着:框架迁移、API 废弃替换、语言移植、大规模安全审计这些原本要整个团队按 Sprint 排期的活,现在开一个 Claude Code session 就行了。

但坑也得说:真的很能烧 token,启动前会弹确认框劝你三思。而且 research preview 的东西,投产就别想了。

2.4 中途改 System Message

Messages API 现在允许在 messages 数组中间插 system 条目。看起来是小事,但对 agent 类工作流影响很大——你不用为了改一句指令把整个 prompt cache 清掉了。长链条工具调用的时候,可以一边保持上下文缓存,一边动态调 agent 的行为。

2.5 Fast Mode:便宜了三倍

Fast Mode 从之前的 30/30/150 降到 10/10/50,速度快了 2.5 倍。对延迟敏感的生产场景,这个改变比任何基准分都实际。不过 API 还得排 waitlist,现在只有 Claude Code 里能直接打 /fast

三、产品层面:Anthropic 这次怎么出牌

3.1 不加价:这就是最好的营销

Opus 4.8 价格还是 5/5/25。在 GPT-5.5、Gemini 3.1 Pro、DeepSeek V4 Pro 都在打价格战的时候,Anthropic 选择"升性能不升价"。不过有一点他们没提:4.8 的 tokenizer 和 4.7 一样(不是 4.6 那个),从 4.6 迁移过来的人可能面临 0-35% 的输入成本上涨,尤其在代码和 JSON 上。

3.2 Effort Control:你们不是不信自适应吗?那自己选

claude.ai 和 Cowork 现在开放了 effort 级别(low / high / extra),Claude Code 里有 high / xhigh / max。这件事的潜台词其实挺有意思的:"你们觉得我们的'自适应思考'不靠谱对吧?行,你们自己选。"

这种"交还控制权"的做法,本质上是对 4.7 Adaptive Thinking 口碑翻车的一次认错——既然用户不相信自动决策,那就把开关掰过来。

3.3 "诚实"作为卖点

Anthropic 把 Opus 4.8 定位成"迄今最诚实的模型"——更少胡说八道、更少讨好用户、更愿意说"不确定"。

说实话这招挺聪明的。Agent 越来越普及,"会撒谎的 AI"已经成了行业级问题。代码审查时无声通过的 bug、金融分析里编出来的引用数据——都是生产环境踩过的坑。把"诚实"做成产品特性,是在打企业级信任这张牌。

3.4 Dynamic Workflows

从产品形态看,Dynamic Workflows 在走一条很明确的路:从"AI 写代码助手"变成"AI 工程团队" 。Claude Code 从一个对话式工具往自主编排平台的方向进化,这不是加功能,是产品形态升级。

四、商业与竞争

4.1 实力对决 --- GPT-5.5

维度Opus 4.8GPT-5.5
综合基准 (BenchLM)93/100 (#2)91/100 (#4)
编码76.458.6
Agent 能力80.181.5(领先 1.4)
知识理解70.166.4
多模态76.170.4
价格5/5/2515/15/60
上下文1M1M

编码上碾压式领先(+17.8),知识理解、多模态也全面占优,只在 Agent 场景差了一点点。而价格只有 GPT-5.5 的三分之一到一半。这个性价比差异短期很难被追上。

4.2 Mythos 要来了

Anthropic 在发布里反复提"Mythos-class models coming in the coming weeks"。意思是 Opus 4.8 可能就几周的生命期——等网络安全专用的 Mythos 完成安全审查、向所有客户开放,Opus 4.8 就会退居二线。

这个节奏耐人寻味:先拿 4.8 稳住局面,等 Mythos 的子弹上膛。4.8 可能只是过渡。

五、所以要不要迁?

你现在的状态我的建议
在用 4.7直接迁。同价,全部有提升,工具调用不抽风了
在用 4.6先跑一次成本测试。tokenizer 变了,成本可能涨
在用 GPT-5.5值得试试。尤其编码场景,便宜 2-3 倍还更强
日常用 Sonnet 4.6日常继续用 Sonnet。复杂任务再切 Opus 4.8

说人话的总结: Opus 4.8 是 Anthropic 给 4.7 擦的一次挺成功的屁股。工具调用修了、编码效率上去了、价格没动——开发者最痛的地方基本都照顾到了。Dynamic Workflows 代表着"AI 从写代码的工具变成自己组织的工程团队"这个方向。但 Mythos 就在门口等着,4.8 可能真的只是一个过渡版本。在这个行业里,今天的 SOTA 明天可能就是"上一代"——你习惯了就好。


国产模型 VS Opus 4.8:差多少,差在哪,怎么选

四家国产旗舰(DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、MiniMax M2.7)和 Opus 4.8 的真实差距≈10-15 分的编码能力,但价格差了 10-80 倍。80% 的日常活国产已经够用——痛的是那"最后 15% 的长链条"。

Opus 4.8 一出来,绕不开的问题肯定是:国产现在到底追到哪了?

这个问题有两个面:一是纸面分差多少二是实际用起来差在哪


一、7 个维度拉一张表

维度Opus 4.8DeepSeek V4 ProGLM-5.1Kimi K2.6MiniMax M2.7
SWE-bench Pro69.2% 🏆55.4%58.4%58.6%56.2%
Terminal-Bench 2.070.3% 🏆67.9%69.0%66.7%57.0%
GPQA Diamond94.3% 🏆90.1%
HLE (with tools)57.9% 🏆54.0%
价格(每百万 token)5/5 / 250.44/0.44 / 0.87订阅制0.60/0.60 / 2.400.30/0.30 / 1.20

三件事很明显

1. 编码头部差距缩到 10-15 分了。 GLM-5.1 和 Kimi K2.6 的 SWE-bench Pro 分别 58.4% 和 58.6%,Opus 4.8 是 69.2%。差距在,但不是断崖。

2. 终端工程几乎追平了。 GLM-5.1 的 Terminal-Bench 2.0 拿了 69.0%,Opus 4.8 是 70.3%——差 1.3 个点。

3. 日常编码已经没啥差距了。 SWE-bench Verified(更简单的代码修复)上,DeepSeek、Kimi、MiniMax 都在 80% 左右,Opus 4.7 也就 80.8%。

二、四家国产各自什么水平

DeepSeek V4 Pro——价格太狠了,但长链条还是不稳

好的地方: $0.44 的价格只有 Opus 的 1/11。LiveCodeBench 打到 93.5(超 Opus 4.7 的 88.8)。Codeforces ELO 3206 是所有模型最高。38 项金融分析任务和 Opus 4.7 打得有来有回。

不行的地方: SWE-bench Pro 只有 55.4%,和 Opus 4.8 差了 14 分。跨文件、多步规划的真实工程,DeepSeek 的"长链条稳定性"差一档。GPQA 90.1% vs 94.3%,复杂推理也差点。

实际感受: FundaAI 的 38 项实测里,DeepSeek "做分析"不输 Opus,但"执行多步任务"超时率更高。挂 DeepClaude 框架能跑到 89 分,裸 DeepSeek 只有 69——问题不在模型本身,在 agent 框架的原生适配还没跟上。

GLM-5.1——纸面最强,实际落差最大

好的地方: SWE-bench Pro 58.4%,Terminal-Bench 2.0 69.0%,两项都是国产最高。GLM 在工程编码上确实走得最稳。知乎社区风评也是三家里最好的("三家里最划算")。

不行的地方: 慢到让人抓狂——高峰期不到 30 TPS(Opus 至少 2-3 倍),还频繁错误码429。AkitaOnRails 的 24 模型实测里,GLM-5.1 只拿了 46 分,和 MiniMax(41 分)一起垫底,连 Qwen 3.6 Plus(71 分)都没打过——生成的代码不兼容测试框架。

实际感受: GLM-5.1 的 Benchmark 分和实际体验之间的差距可能是四家里最大的。官方分喊得高,但真实编码里"开箱即用"的程度远不如 Kimi 和 DeepSeek。而且它闭源 + 订阅制,生态集成最差。

Kimi K2.6——最像 Opus 的国产模型

好的地方: SWE-bench Pro 58.6%(国产最高,和 GLM 并列),SWE-bench Verified 80.2%。BrowseComp 83.2%(超 GPT-5.4 的 82.7%)。最让我意外的是它能自己跑 12 小时的编码任务、4000 多次工具调用不断线——这个"存活能力"国产独一份,Opus 4.8 也是主打这个。

不行的地方: 推理效率低——同样的问题,Opus 4.8 可能 1/2 到 1/6 的 token 就搞定了。K2.6 在复杂逻辑上会"顶着思考预算上限跑"。价格 $0.60 虽然便宜,但没到 DeepSeek 那种"白菜价"。

实际感受: 如果你只能选一个国产模型当主力,Kimi K2.6 是最安全的选择。长上下文稳、agent 能活、编码准。

MiniMax M2.7——参数最小但有巧劲

好的地方: SWE-bench Verified 80.2% 和 Kimi 一样。SWE Multilingual 76.5% 是四家最高——多语言代码处理确实强。参数量才 230B(激活 10B),部署门槛最低。

不行的地方: SWE-bench Pro 56.2%,Terminal-Bench 2.0 57.0%——深度工程推理明显落后。AkitaOnRails 只给了 41 分 C 级:"发明了不存在的 batch API 签名,第一次调用就崩了"。

实际感受: 便宜 + 参数小是它的招牌,但实际编码的"开箱即用"质量不太稳定。适合大吞吐的结构化任务,复杂工程别想。

三、Opus 4.8 领先在哪,领先多少

差距层级幅度代表场景
大幅领先>15%SWE-bench Pro(69.2% vs ~56%)、GPQA Diamond(94.3% vs ~90%)
小幅领先5-10%HLE tools(57.9% vs 54.0%)、终端工程
基本持平<5%简单代码修复、多语言编码
国产反超价格 10-80x、LiveCodeBench、Codeforces ELO

拆开来说:

  • 硬编码(SWE-bench Pro) :领先约 13 分。核心差距在长链条 agent 工作流——跨 10+ 文件的复杂修复,国产规划稳定性差一截
  • 复杂推理(GPQA Diamond) :领先约 4 分。科学推理是国产普遍弱项
  • 工具调用效率:同样的活,Opus 用更少步数和更少 token。Kimi K2.6 的"思考效率"只有 1/2 到 1/6
  • 生产稳定性:只有 Kimi K2.6 在这一点上接近 Opus。DeepSeek V4 Pro 的长链条 task timeout 率明显更高

四、怎么选

你的场景选什么
日常编码国产随便选,DeepSeek 或 Kimi,省 10-80 倍
多文件重构、框架迁移Opus 4.8,长链条还是领先
大批量自动化 AgentKimi K2.6 主 + Opus 4.8 兜底,K2.6 12h 不掉线
预算敏感、高吞吐DeepSeek V4 Flash(0.14/0.14/0.28),便宜到可以忽略
科学推理、复杂分析Opus 4.8,GPQA 94.3% 国产还摸不到
既要又要(性价比)路由:Kimi 做日常,Opus 兜底难任务

五、说人话的趋势判断

国产追上来的是"上一个版本"。

2025 年国产旗舰对标 Opus 4.5,2026 年 4 月四连发追到 4.6-4.7 水平。然后 5 月底 Opus 4.8 刷新了上限。差距在缩小,但 Opus 换代也在加速——41 天一版,谁受得了。

更关键的是:Benchmark 是开卷考试,实际工程是闭卷考。

  • 开卷差距:10-15 分(SWE-bench Pro)
  • 闭卷差距:更大。国产的工具调用"开箱即用"、长链条稳定、agent 框架适配都还差一截
  • 价格差距:10-80 倍——这才是国产最硬的底气

最后给个实在的建议: 高吞吐、有容错空间的日常活——国产已经管够。一条 bug 可能赔几百万的高风险活——Opus 4.8 还是更靠谱。最好的办法?路由。让便宜的干 80%,让旗舰兜底剩下的 20%。钱省了,质量也没落下。