Claude Opus 4.7全网翻车,背后藏着Anthropic最疯狂的豪赌

3 阅读1分钟

Claude Opus 4.7全网翻车,背后藏着Anthropic最疯狂的豪赌

上周四凌晨,我正在用Claude Opus 4.6写一个比较复杂的后端服务——涉及数据库迁移、中间件重写和三个微服务的接口对齐。代码跑了大概40分钟,整体很顺,中间只纠了两次逻辑错误。我心想,AI编程终于到了"基本能放心用"的阶段了。

然后Opus 4.7发布,一夜之间,一切都变了。

不是变好。

升级?降级?

4月17号,Anthropic放出Opus 4.7,官方博客写得漂亮:编程能力大幅提升、视觉理解升级到375万像素、新增xhigh努力级别、Claude Code加了/ultrareview命令……看起来是一次全方位的跃升。

Reddit上的ClaudeAI社区却炸了。

一个付费订阅老用户直接写了篇檄文,标题就叫《Claude Opus 4.7是一个严重的倒退,而不是升级》。评论区几百条回复,基本都是同一个意思——还我4.6

出问题了。

三个让人破防的"breaking change"

搞了两天各种测试之后,我发现问题主要集中在三块:

1. Token消耗暗涨35%

Anthropic的迁移指南里藏了一行小字:新分词器改进了文本处理方式,同样的输入可能映射为1.0~1.35倍的token。

翻译成人话:API价格没变,但同样的内容你得多付最多35%的钱。

这还不算完。拿同一张设计稿喂给4.6和4.7,输入token直接飙到3倍多。有人算了笔账——月账单直接翻倍,因为官方通篇都在吹视觉能力提升,一个字没提这玩意儿吃token跟喝水似的。

Medium上有篇分析文章说得特别到位:Anthropic发了6条使用建议,只字不提最关键的三个breaking change。这不是疏忽,这是策略。

2. 长上下文检索直接崩了

这块的数据最离谱。

长上下文检索评测(Needle in a Haystack),Opus 4.6能拿到78.3%的分数。Opus 4.7呢?32.2%

直接腰斩都不止。

Anthropic的解释是:"新模型遇到缺信息会直接报错,不像以前那样瞎编。"但用户实际试下来,信息明明白白在上下文里放着,它也能给你漏掉。做法律合同审查的、金融研报分析的——慎用。你敢信一个80页的PDF里明明写了关键条款,它愣是告诉你"没找到"?

说实话,我遇到这个bug的时候也懵了。排查了半小时,反复确认文本确实在上下文里,不是幻觉。是模型自己检索不到。

3. 写作能力全面退化

这块的吐槽最密集。

写作用户反馈Opus 4.7现在满嘴"稳稳接住""压实闭环""拉齐认知"这种大厂黑话。破折号乱用,续写内容干巴巴。一个做内容运营的朋友跟我吐槽:"以前用它改文案,现在改它的文案花两倍时间。"

思考过程还被藏了。Opus 4.7默认不输出推理摘要,想看逻辑得手动加命令。复杂任务出错时,你根本不知道它哪一步想岔了,排查成本直接翻倍。有人说官方是怕被蒸馏——可能吧,但开发者体验是真的喂了狗。

为什么会这样?

翻了一堆测试报告和官方System Card之后,我大概理清了。

Anthropic在Opus 4.7上做了一个非常激进的决策:把模型能力重心几乎全部押在了编程和Agent场景

SWE-bench Verified得分从80.8%提升到更高水平(这个确实强,没人否认),Terminal-Bench、GPQA Diamond这些硬核技术指标全部提升。新增的xhigh努力等级、/ultrareview命令、auto mode——全都是给开发者和Agent工作流准备的。

代价呢?写作、检索、联网搜索这些"软技能"被牺牲了。

BrowseComp评测(Agent搜索能力),Opus 4.7从4.6的83.7%掉到79.3%,被GPT-5.4的89.3%甩开一大截。这就不只是"退了一小步"了。

说白了,Anthropic选了边。他们赌的是:未来最有价值的市场是AI编程和企业自动化Agent,而不是帮人写文案和做摘要。

这个赌注对不对?短期看肯定是挨骂的,长期……不好说。

然后是Claude Mythos——那个"太危险所以不发布"的怪物

就在Opus 4.7翻车的同一天,我注意到了另一件事。很多人可能光顾着吐槽4.7,忽略了4月早些时候的一条更炸裂的消息:

Anthropic发布了一个叫Claude Mythos的模型,然后说:这东西太强了,我们不对外卖。

这事儿比Opus 4.7的翻车有意思多了。

Mythos有多离谱?看一下数据:

  • SWE-bench Verified:93.9%(Opus 4.6是80.8%,GPT-5.4大约84%)
  • SWE-bench Pro:77.8%(比Opus 4.6的53.4%提高了将近25个百分点)
  • Cybench(网络安全CTF):100%,Anthropic说这个benchmark"已经不再有信息量了"
  • 数学奥赛USAMO 2026:97.6%(Opus 4.6是42.3%……从42%跳到97%,你品品)

泄露的内部文件显示模型参数约10万亿,训练成本传闻100亿美元。

但这不是重点。重点是——Mythos在没有任何人类干预的情况下,自主发现了数千个零日漏洞

一个藏了27年的OpenBSD远程崩溃漏洞,它找到了。一个在FFmpeg里沉睡了16年的安全隐患,被自动化fuzzing跑了500万次都没发现的,它找到了。多个Linux内核高危漏洞,它也找到了。

然后Anthropic做了一个所有人都没想到的决定:不发布。

他们搞了个"玻璃翼计划"(Project Glasswing),拉上AWS、Apple、Google、Microsoft、Linux基金会等50多家机构,让这些公司先用Mythos扫描和修复自家系统。还砸了1亿美元API额度和400万美元捐给开源社区。

Anthropic的网络安全负责人Newton Cheng原话是:"我们不打算公开发布Claude Mythos Preview,因为它的网络安全能力。"

CEO Dario Amodei的说法更有意思:"搞砸了的危险是显而易见的,但如果搞对了,我们有机会创造一个比AI出现之前更安全的互联网和世界。"

便宜模型也能做?别急

故事到这里,你以为就是"AI太强了人类完蛋"的剧本?

36氪上有一篇来自安全初创公司AISLE的文章,给整件事泼了一盆冷水。

AISLE从2025年中期就开始用AI给开源软件找漏洞,累计修复了180多个被社区认可的安全漏洞。Mythos发布后,他们做了一个很锐利的测试:把Mythos找到的那些漏洞,拿给一堆便宜小模型跑。

结果?

DeepSeek R1找到了同样的漏洞,精确度最高。 一个成本只有0.11美元/百万token的小模型也找到了。

另一个藏了27年的漏洞,GPT-OSS-120b一次就复现了整个攻击路径,还提出了跟Anthropic实际修复方案基本一致的补丁。Kimi K2也出色完成,只需要三次简单的API调用。

等一下,那Mythos有什么了不起的?

AISLE的答案是:厉害的是"从头到尾的自主性",而不是"单步找漏洞的能力"。

便宜模型是被喂了可疑代码才找到bug的——等于告诉它"看看这里有没有问题"。而Mythos能自己从几十万个文件里找到值得深入检查的地方,提出假设,验证问题,写出攻击代码,全程自动。

这个"全程自动"的价值主要来自工程设计,而不是模型智能本身。把"找漏洞"这件事拆开看:大范围扫描→深入检查→判断严重程度→写补丁。"找出问题"这一步,便宜模型已经够用了。真正难的是怎么串成一条可靠的工作流水线。

AISLE的结论很精彩:一千个还行的侦探把每个房间都查一遍,可能比一个天才侦探逐个去找效率更高。

当然,这话也只说了一半。Anthropic做的是把"流水线"和"最强模型"结合在一起——这两者不是互斥的。未来大概率是"强模型+好工程"的组合胜出,而不是二选一。

回过头来看Opus 4.7

理解了Mythos的存在之后,Opus 4.7的很多决策突然就说得通了。

Anthropic手里有一个能搞网络安全的怪物模型,他们的资源重心显然在Mythos和Project Glasswing上。Opus 4.7更像是给开发者群体的一个"中间产物"——编程能力确实提升了(这是Mythos技术下放的结果),但其他方面被挤占了。

新分词器涨token消耗,可能是为了适配更大模型的架构。思考过程被隐藏,可能是为了防止蒸馏(毕竟Mythos太强了,他们现在对模型泄露极其敏感)。长上下文检索退化,可能是新的检索架构还没完全调好就被推出来了。

我不是在给Anthropic洗地——实际上我觉得他们的沟通做得极差。迁移指南里藏着breaking change不主动说,官方博客一个字不提token消耗上涨,长上下文退化这种致命问题在System Card里一笔带过。开发者社区炸了之后才开始在评论区"补充说明"。

这种操作,像极了产品经理偷偷上线一个需求,出了bug再补文档。

我的建议

如果你是日常用Claude的开发者:

  • 编程场景:升级到4.7,确实更强。特别是复杂多步任务,4.7的自验证能力和xhigh模式真的有用
  • 写作/摘要/长文档暂时别升级。4.6在这些场景下仍然明显更好。等Anthropic修复检索问题再说
  • Agent/自动化:看情况。搜索能力退化了,如果你的Agent重度依赖联网搜索,可能反而不如4.6
  • API用户:做好成本预算。同样的请求,token消耗可能多10%~35%,再加上思考量增加带来的输出token暴涨

如果你关心行业趋势:

  • Anthropic正在从一个"做通用AI助手"的公司,转变成一个"做AI安全基础设施"的公司。Mythos和Glasswing项目暴露了他们的真正野心
  • Opus 4.7的翻车不是偶然,是战略取舍。他们赌的是"编程和Agent"赛道,不care写作用户
  • 这场AI竞赛已经不只是比模型参数了。怎么把模型能力包装成工程化产品,才是真正的护城河。AISLE用便宜模型找到同样漏洞的案例说明了这一点

对了,还有一件事——黑客界传奇人物George Hotz(geohot,当年破解iPhone和PS3的那位)公开质疑Mythos的"颠覆性"是被过度包装的。他的观点是:本质仍然是工具提速,不是能力跃迁。

这话有道理,但也不完全对。当一个"工具"能自主运行10个小时完成从侦察到攻击的全流程时,"提速"和"跃迁"的界限已经模糊了。

总之,2026年4月的Anthropic给我们上了生动的一课:AI公司发布新产品,不等于你的生活会变好。它可能只是在帮别人(或者帮自己)赚钱。 至于用户?写好你的prompt,守好你的钱包,别当小白鼠。

有问题评论区聊。你对Opus 4.7怎么看?升级了还是回退了?