Claude Opus 4.7 深度解读：代码能力暴涨7%，但Anthropic不敢放出的那个模型才叫恐怖Claude

Claude Opus 4.7 深度解读：代码能力暴涨7%，但Anthropic不敢放出的那个模型才叫恐怖

HN上昨天最火的一帖，1823分，1318条评论——Anthropic发布了Claude Opus 4.7。

我翻了一晚上外网资料（主要是Anthropic官方blog、Vellum的benchmark拆解、llm-stats的定价分析，还有HN上的讨论帖），说说我的理解。

先说数字

SWE-bench Verified从80.8%干到87.6%，涨了6.8个百分点。

这个benchmark测的是什么？给模型一个真实的GitHub issue，看它能不能自己定位、写代码、过测试。87.6%意味着——接近9成的真实bug，它能自己修了。

更狠的是SWE-bench Pro，从53.4%飙到64.3%，涨了10.9个百分点。Pro版本测的是更复杂的、跨语言的生产级问题。这个提升幅度是近年来所有模型迭代里最大的。

Rakuten（对，就是那个日本电商巨头）拿去实测了，生产环境任务完成量直接翻了3倍。Cursor那边也报告说CursorBench从58%涨到了70%。

价格没变， $5/$ 25 per million tokens，和4.6一模一样。

等于加量不加价。

四个真正重要的新特性

大家都在聊benchmark数字，但我觉得真正有意思的是四个不太显眼的变化：

1. 自验证——它会自己查自己了

Anthropic的原文是"devises ways to verify its own outputs before reporting back"。

说白了就是：模型在完成任务之前，会主动写测试、跑检查、审视自己的输出，确认没问题了才交给你。

Vercel那边反馈说Opus 4.7"会在动手之前先对系统代码做证明"——这个行为在之前的Claude模型里从没出现过。

这个feature对长时运行的Agent场景太重要了。你让一个Agent跑24小时改代码，中途没人盯着，它要是不能自己查错，那就是定时炸弹。

2. 更"听话"——字面理解你的指令

这个反而是个双刃剑。

4.7会字面理解你的prompt，不再像之前那样"揣摩你的意思"。你写的bullet list，以前可能被当成"建议"，现在会被当成"硬性要求"。

迁移的时候要注意——如果你的prompt是按4.6的"宽松理解"风格调的，升到4.7可能会出意外结果。建议大规模迁移之前先审计一遍system prompt。

3. 跨会话记忆——终于能"记住"了

4.7有了更好的文件系统记忆能力。什么意思？就是它可以在不同session之间读写和复用持久化的笔记文件。

你今天让Agent做了一半的工作，明天接着来，它不需要你从头再描述一遍上下文了。这个改动让Agent的工作周期从"分钟级"扩展到了"天级"。

4. 视觉能力暴涨3.3倍

图片分辨率从1568像素提升到2576像素（长边），像素面积涨了3.3倍。

XBOW报告的视觉benchmark从54.5%飙到98.5%——这个跳跃太离谱了。CharXiv视觉推理也涨了13个百分点。

如果你的Agent需要读UI截图、仪表盘、技术图表，这个升级是质变级别的。

一个不太好的信号：BrowseComp退步了

BrowseComp（网页搜索能力benchmark）从83.7%掉到了79.3%，跌了4.4个百分点。

同期GPT-5.4 Pro是89.3%，Gemini 3.1 Pro是85.9%，差距不小。

Anthropic的解释是harness选择导致的——4.6之前用的是多Agent框架在max effort下跑的，4.7换成了统一框架。但说实话，如果你重度依赖Agent做深度网页调研，别急着切4.7，GPT-5.4 Pro在这个场景上依然更稳。

xhigh——新的推理档位

之前effort level是 low → medium → high → max 四档，4.7加了个 xhigh，插在high和max之间。

为什么？因为max实在太慢了。很多场景你需要"比high更深入一些"，但不想承受max的延迟和token消耗。xhigh就是这个中间地带。

Claude Code现在默认档位已经改成了xhigh。

还有个新feature叫Task Budgets（公测中），可以给长任务设定token消耗上限。配合xhigh用，相当于说："给我使劲想，但别超过N个token。"对多Agent场景特别有用——一个分支开始"上头"疯狂消耗token的时候，能拉住它。

好了，以上都是铺垫。接下来才是这篇文章真正想说的。

Opus 4.7很强，对吧？

但Anthropic手里有一个比Opus 4.7强得多的模型，他们不敢放出来。

它叫 Claude Mythos。

3月26号，Anthropic的CMS配置出了个失误，Mythos的存在被两个安全研究员（Roy Paz和Alexandre Pauwels）意外发现了。4月7号，Anthropic被迫正式公开——附带一份244页的System Card。

先看数字：

Benchmark	Mythos	Opus 4.6	Opus 4.7
SWE-bench Verified	93.9%	80.8%	87.6%
SWE-bench Pro	77.8%	53.4%	64.3%
USAMO（美国数学奥赛）	97.6%	42.3%	未公布
Cybench（安全CTF）	100%	—	—
GraphWalks BFS（长上下文）	80.0%	38.7%	未公布

几个让人头皮发麻的数据点：

SWE-bench Verified 93.9%——超过大多数职业软件工程师的水平
USAMO从42.3%跳到97.6%——一代模型之间，数学竞赛能力直接从"还行"变成"接近满分"
Cybench 100%——满分，benchmark已经不再有区分度了
它发现了数千个零日漏洞，包括一个在OpenBSD里藏了27年的bug

27年。

这就是为什么Anthropic不敢把它放出来。

Project Glasswing——只给12家机构用

Anthropic搞了个叫"Glasswing"（玻璃翼蝴蝶）的项目，把Mythos独家部署给了12家"关键基础设施"合作伙伴：

AWS、Apple、Google、Microsoft、NVIDIA、Cisco、CrowdStrike、JPMorgan、Broadcom、Palo Alto Networks、Linux Foundation，还有一家没公开的。

看出来了吗？全是操作系统、芯片、网络安全、金融基础设施的核心玩家。

价格也是离谱的： $25/$ 125 per million tokens（Opus 4.7的五倍）。而且Anthropic还给了$1亿的免费credits——等于前期的安全审计基本是倒贴在做。

估值：两个月从3800亿到8000亿

Anthropic今年2月Series G的估值是3800亿美元。到了4月14号，二级市场（Caplight）已经到了6880亿，VC那边有人出到了8000亿美元——离OpenAI的8520亿只差6%。

年化收入从去年12月的90亿涨到了现在的300亿，4个月翻了3倍多。Enterprise客户里年消费超100万美元的有1000+家——两个月前还是500家。

Claude Code是最大的增长引擎，已经在企业级市场反超了GitHub Copilot。

我的看法

Opus 4.7是个扎实的产品升级，代码能力、Agent能力、视觉能力都有实质性提升，价格不变，迁移成本也不高（除了tokenizer变了需要重新测算token消耗）。

但真正值得思考的是Mythos的存在意味着什么。

当最强AI模型因为"太危险"而只能限制在12家机构内部使用的时候，我们面对的已经不是技术问题了，而是一个全新的治理难题。

Anthropic说会在90天内（大约7月份）发布一份全面的公开报告。到时候看看他们怎么解释这个"只给大厂用、不给普通人用"的决定吧。

对了，Opus 4.7还有一个有意思的细节：它的CyberGym成绩和4.6基本持平。Anthropic说是故意压低了攻击性网络安全能力。和Mythos的100% Cybench放在一起看，味道就很微妙了——他们不是做不出来，而是选择不给你。

主要参考来源：