Claude Opus 4.7全网翻车，背后藏着Anthropic最疯狂的豪赌Claude Opus 4.7全网翻车，背

Claude Opus 4.7全网翻车，背后藏着Anthropic最疯狂的豪赌

上周四凌晨，我正在用Claude Opus 4.6写一个比较复杂的后端服务——涉及数据库迁移、中间件重写和三个微服务的接口对齐。代码跑了大概40分钟，整体很顺，中间只纠了两次逻辑错误。我心想，AI编程终于到了"基本能放心用"的阶段了。

然后Opus 4.7发布，一夜之间，一切都变了。

不是变好。

升级？降级？

4月17号，Anthropic放出Opus 4.7，官方博客写得漂亮：编程能力大幅提升、视觉理解升级到375万像素、新增xhigh努力级别、Claude Code加了/ultrareview命令……看起来是一次全方位的跃升。

Reddit上的ClaudeAI社区却炸了。

一个付费订阅老用户直接写了篇檄文，标题就叫《Claude Opus 4.7是一个严重的倒退，而不是升级》。评论区几百条回复，基本都是同一个意思——还我4.6。

出问题了。

三个让人破防的"breaking change"

搞了两天各种测试之后，我发现问题主要集中在三块：

1. Token消耗暗涨35%

Anthropic的迁移指南里藏了一行小字：新分词器改进了文本处理方式，同样的输入可能映射为1.0~1.35倍的token。

翻译成人话：API价格没变，但同样的内容你得多付最多35%的钱。

这还不算完。拿同一张设计稿喂给4.6和4.7，输入token直接飙到3倍多。有人算了笔账——月账单直接翻倍，因为官方通篇都在吹视觉能力提升，一个字没提这玩意儿吃token跟喝水似的。

Medium上有篇分析文章说得特别到位：Anthropic发了6条使用建议，只字不提最关键的三个breaking change。这不是疏忽，这是策略。

2. 长上下文检索直接崩了

这块的数据最离谱。

长上下文检索评测（Needle in a Haystack），Opus 4.6能拿到78.3%的分数。Opus 4.7呢？32.2%。

直接腰斩都不止。

Anthropic的解释是："新模型遇到缺信息会直接报错，不像以前那样瞎编。"但用户实际试下来，信息明明白白在上下文里放着，它也能给你漏掉。做法律合同审查的、金融研报分析的——慎用。你敢信一个80页的PDF里明明写了关键条款，它愣是告诉你"没找到"？

说实话，我遇到这个bug的时候也懵了。排查了半小时，反复确认文本确实在上下文里，不是幻觉。是模型自己检索不到。

3. 写作能力全面退化

这块的吐槽最密集。

写作用户反馈Opus 4.7现在满嘴"稳稳接住""压实闭环""拉齐认知"这种大厂黑话。破折号乱用，续写内容干巴巴。一个做内容运营的朋友跟我吐槽："以前用它改文案，现在改它的文案花两倍时间。"

思考过程还被藏了。Opus 4.7默认不输出推理摘要，想看逻辑得手动加命令。复杂任务出错时，你根本不知道它哪一步想岔了，排查成本直接翻倍。有人说官方是怕被蒸馏——可能吧，但开发者体验是真的喂了狗。

为什么会这样？

翻了一堆测试报告和官方System Card之后，我大概理清了。

Anthropic在Opus 4.7上做了一个非常激进的决策：把模型能力重心几乎全部押在了编程和Agent场景。

SWE-bench Verified得分从80.8%提升到更高水平（这个确实强，没人否认），Terminal-Bench、GPQA Diamond这些硬核技术指标全部提升。新增的xhigh努力等级、/ultrareview命令、auto mode——全都是给开发者和Agent工作流准备的。

代价呢？写作、检索、联网搜索这些"软技能"被牺牲了。

BrowseComp评测（Agent搜索能力），Opus 4.7从4.6的83.7%掉到79.3%，被GPT-5.4的89.3%甩开一大截。这就不只是"退了一小步"了。

说白了，Anthropic选了边。他们赌的是：未来最有价值的市场是AI编程和企业自动化Agent，而不是帮人写文案和做摘要。

这个赌注对不对？短期看肯定是挨骂的，长期……不好说。

然后是Claude Mythos——那个"太危险所以不发布"的怪物

就在Opus 4.7翻车的同一天，我注意到了另一件事。很多人可能光顾着吐槽4.7，忽略了4月早些时候的一条更炸裂的消息：

Anthropic发布了一个叫Claude Mythos的模型，然后说：这东西太强了，我们不对外卖。

这事儿比Opus 4.7的翻车有意思多了。

Mythos有多离谱？看一下数据：

SWE-bench Verified：93.9%（Opus 4.6是80.8%，GPT-5.4大约84%）
SWE-bench Pro：77.8%（比Opus 4.6的53.4%提高了将近25个百分点）
Cybench（网络安全CTF）：100%，Anthropic说这个benchmark"已经不再有信息量了"
数学奥赛USAMO 2026：97.6%（Opus 4.6是42.3%……从42%跳到97%，你品品）

泄露的内部文件显示模型参数约10万亿，训练成本传闻100亿美元。

但这不是重点。重点是——Mythos在没有任何人类干预的情况下，自主发现了数千个零日漏洞。

一个藏了27年的OpenBSD远程崩溃漏洞，它找到了。一个在FFmpeg里沉睡了16年的安全隐患，被自动化fuzzing跑了500万次都没发现的，它找到了。多个Linux内核高危漏洞，它也找到了。

然后Anthropic做了一个所有人都没想到的决定：不发布。

他们搞了个"玻璃翼计划"（Project Glasswing），拉上AWS、Apple、Google、Microsoft、Linux基金会等50多家机构，让这些公司先用Mythos扫描和修复自家系统。还砸了1亿美元API额度和400万美元捐给开源社区。

Anthropic的网络安全负责人Newton Cheng原话是："我们不打算公开发布Claude Mythos Preview，因为它的网络安全能力。"

CEO Dario Amodei的说法更有意思："搞砸了的危险是显而易见的，但如果搞对了，我们有机会创造一个比AI出现之前更安全的互联网和世界。"

便宜模型也能做？别急

故事到这里，你以为就是"AI太强了人类完蛋"的剧本？

36氪上有一篇来自安全初创公司AISLE的文章，给整件事泼了一盆冷水。

AISLE从2025年中期就开始用AI给开源软件找漏洞，累计修复了180多个被社区认可的安全漏洞。Mythos发布后，他们做了一个很锐利的测试：把Mythos找到的那些漏洞，拿给一堆便宜小模型跑。

结果？

DeepSeek R1找到了同样的漏洞，精确度最高。 一个成本只有0.11美元/百万token的小模型也找到了。

另一个藏了27年的漏洞，GPT-OSS-120b一次就复现了整个攻击路径，还提出了跟Anthropic实际修复方案基本一致的补丁。Kimi K2也出色完成，只需要三次简单的API调用。

等一下，那Mythos有什么了不起的？

AISLE的答案是：厉害的是"从头到尾的自主性"，而不是"单步找漏洞的能力"。

便宜模型是被喂了可疑代码才找到bug的——等于告诉它"看看这里有没有问题"。而Mythos能自己从几十万个文件里找到值得深入检查的地方，提出假设，验证问题，写出攻击代码，全程自动。

这个"全程自动"的价值主要来自工程设计，而不是模型智能本身。把"找漏洞"这件事拆开看：大范围扫描→深入检查→判断严重程度→写补丁。"找出问题"这一步，便宜模型已经够用了。真正难的是怎么串成一条可靠的工作流水线。

AISLE的结论很精彩：一千个还行的侦探把每个房间都查一遍，可能比一个天才侦探逐个去找效率更高。

当然，这话也只说了一半。Anthropic做的是把"流水线"和"最强模型"结合在一起——这两者不是互斥的。未来大概率是"强模型+好工程"的组合胜出，而不是二选一。

回过头来看Opus 4.7

理解了Mythos的存在之后，Opus 4.7的很多决策突然就说得通了。

Anthropic手里有一个能搞网络安全的怪物模型，他们的资源重心显然在Mythos和Project Glasswing上。Opus 4.7更像是给开发者群体的一个"中间产物"——编程能力确实提升了（这是Mythos技术下放的结果），但其他方面被挤占了。

新分词器涨token消耗，可能是为了适配更大模型的架构。思考过程被隐藏，可能是为了防止蒸馏（毕竟Mythos太强了，他们现在对模型泄露极其敏感）。长上下文检索退化，可能是新的检索架构还没完全调好就被推出来了。

我不是在给Anthropic洗地——实际上我觉得他们的沟通做得极差。迁移指南里藏着breaking change不主动说，官方博客一个字不提token消耗上涨，长上下文退化这种致命问题在System Card里一笔带过。开发者社区炸了之后才开始在评论区"补充说明"。

这种操作，像极了产品经理偷偷上线一个需求，出了bug再补文档。

我的建议

如果你是日常用Claude的开发者：

编程场景：升级到4.7，确实更强。特别是复杂多步任务，4.7的自验证能力和xhigh模式真的有用
写作/摘要/长文档：暂时别升级。4.6在这些场景下仍然明显更好。等Anthropic修复检索问题再说
Agent/自动化：看情况。搜索能力退化了，如果你的Agent重度依赖联网搜索，可能反而不如4.6
API用户：做好成本预算。同样的请求，token消耗可能多10%~35%，再加上思考量增加带来的输出token暴涨

如果你关心行业趋势：

Anthropic正在从一个"做通用AI助手"的公司，转变成一个"做AI安全基础设施"的公司。Mythos和Glasswing项目暴露了他们的真正野心
Opus 4.7的翻车不是偶然，是战略取舍。他们赌的是"编程和Agent"赛道，不care写作用户
这场AI竞赛已经不只是比模型参数了。怎么把模型能力包装成工程化产品，才是真正的护城河。AISLE用便宜模型找到同样漏洞的案例说明了这一点

对了，还有一件事——黑客界传奇人物George Hotz（geohot，当年破解iPhone和PS3的那位）公开质疑Mythos的"颠覆性"是被过度包装的。他的观点是：本质仍然是工具提速，不是能力跃迁。

这话有道理，但也不完全对。当一个"工具"能自主运行10个小时完成从侦察到攻击的全流程时，"提速"和"跃迁"的界限已经模糊了。

总之，2026年4月的Anthropic给我们上了生动的一课：AI公司发布新产品，不等于你的生活会变好。它可能只是在帮别人（或者帮自己）赚钱。 至于用户？写好你的prompt，守好你的钱包，别当小白鼠。

有问题评论区聊。你对Opus 4.7怎么看？升级了还是回退了？