Claude Opus 4.7 深度解读:代码能力暴涨7%,但Anthropic不敢放出的那个模型才叫恐怖
HN上昨天最火的一帖,1823分,1318条评论——Anthropic发布了Claude Opus 4.7。
我翻了一晚上外网资料(主要是Anthropic官方blog、Vellum的benchmark拆解、llm-stats的定价分析,还有HN上的讨论帖),说说我的理解。
先说数字
SWE-bench Verified从80.8%干到87.6%,涨了6.8个百分点。
这个benchmark测的是什么?给模型一个真实的GitHub issue,看它能不能自己定位、写代码、过测试。87.6%意味着——接近9成的真实bug,它能自己修了。
更狠的是SWE-bench Pro,从53.4%飙到64.3%,涨了10.9个百分点。Pro版本测的是更复杂的、跨语言的生产级问题。这个提升幅度是近年来所有模型迭代里最大的。
Rakuten(对,就是那个日本电商巨头)拿去实测了,生产环境任务完成量直接翻了3倍。Cursor那边也报告说CursorBench从58%涨到了70%。
价格没变,25 per million tokens,和4.6一模一样。
等于加量不加价。
四个真正重要的新特性
大家都在聊benchmark数字,但我觉得真正有意思的是四个不太显眼的变化:
1. 自验证——它会自己查自己了
Anthropic的原文是"devises ways to verify its own outputs before reporting back"。
说白了就是:模型在完成任务之前,会主动写测试、跑检查、审视自己的输出,确认没问题了才交给你。
Vercel那边反馈说Opus 4.7"会在动手之前先对系统代码做证明"——这个行为在之前的Claude模型里从没出现过。
这个feature对长时运行的Agent场景太重要了。你让一个Agent跑24小时改代码,中途没人盯着,它要是不能自己查错,那就是定时炸弹。
2. 更"听话"——字面理解你的指令
这个反而是个双刃剑。
4.7会字面理解你的prompt,不再像之前那样"揣摩你的意思"。你写的bullet list,以前可能被当成"建议",现在会被当成"硬性要求"。
迁移的时候要注意——如果你的prompt是按4.6的"宽松理解"风格调的,升到4.7可能会出意外结果。建议大规模迁移之前先审计一遍system prompt。
3. 跨会话记忆——终于能"记住"了
4.7有了更好的文件系统记忆能力。什么意思?就是它可以在不同session之间读写和复用持久化的笔记文件。
你今天让Agent做了一半的工作,明天接着来,它不需要你从头再描述一遍上下文了。这个改动让Agent的工作周期从"分钟级"扩展到了"天级"。
4. 视觉能力暴涨3.3倍
图片分辨率从1568像素提升到2576像素(长边),像素面积涨了3.3倍。
XBOW报告的视觉benchmark从54.5%飙到98.5%——这个跳跃太离谱了。CharXiv视觉推理也涨了13个百分点。
如果你的Agent需要读UI截图、仪表盘、技术图表,这个升级是质变级别的。
一个不太好的信号:BrowseComp退步了
BrowseComp(网页搜索能力benchmark)从83.7%掉到了79.3%,跌了4.4个百分点。
同期GPT-5.4 Pro是89.3%,Gemini 3.1 Pro是85.9%,差距不小。
Anthropic的解释是harness选择导致的——4.6之前用的是多Agent框架在max effort下跑的,4.7换成了统一框架。但说实话,如果你重度依赖Agent做深度网页调研,别急着切4.7,GPT-5.4 Pro在这个场景上依然更稳。
xhigh——新的推理档位
之前effort level是 low → medium → high → max 四档,4.7加了个 xhigh,插在high和max之间。
为什么?因为max实在太慢了。很多场景你需要"比high更深入一些",但不想承受max的延迟和token消耗。xhigh就是这个中间地带。
Claude Code现在默认档位已经改成了xhigh。
还有个新feature叫Task Budgets(公测中),可以给长任务设定token消耗上限。配合xhigh用,相当于说:"给我使劲想,但别超过N个token。"对多Agent场景特别有用——一个分支开始"上头"疯狂消耗token的时候,能拉住它。
好了,以上都是铺垫。接下来才是这篇文章真正想说的。
Opus 4.7很强,对吧?
但Anthropic手里有一个比Opus 4.7强得多的模型,他们不敢放出来。
它叫 Claude Mythos。
3月26号,Anthropic的CMS配置出了个失误,Mythos的存在被两个安全研究员(Roy Paz和Alexandre Pauwels)意外发现了。4月7号,Anthropic被迫正式公开——附带一份244页的System Card。
先看数字:
| Benchmark | Mythos | Opus 4.6 | Opus 4.7 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | 87.6% |
| SWE-bench Pro | 77.8% | 53.4% | 64.3% |
| USAMO(美国数学奥赛) | 97.6% | 42.3% | 未公布 |
| Cybench(安全CTF) | 100% | — | — |
| GraphWalks BFS(长上下文) | 80.0% | 38.7% | 未公布 |
几个让人头皮发麻的数据点:
- SWE-bench Verified 93.9%——超过大多数职业软件工程师的水平
- USAMO从42.3%跳到97.6%——一代模型之间,数学竞赛能力直接从"还行"变成"接近满分"
- Cybench 100%——满分,benchmark已经不再有区分度了
- 它发现了数千个零日漏洞,包括一个在OpenBSD里藏了27年的bug
27年。
这就是为什么Anthropic不敢把它放出来。
Project Glasswing——只给12家机构用
Anthropic搞了个叫"Glasswing"(玻璃翼蝴蝶)的项目,把Mythos独家部署给了12家"关键基础设施"合作伙伴:
AWS、Apple、Google、Microsoft、NVIDIA、Cisco、CrowdStrike、JPMorgan、Broadcom、Palo Alto Networks、Linux Foundation,还有一家没公开的。
看出来了吗?全是操作系统、芯片、网络安全、金融基础设施的核心玩家。
价格也是离谱的:125 per million tokens(Opus 4.7的五倍)。而且Anthropic还给了$1亿的免费credits——等于前期的安全审计基本是倒贴在做。
估值:两个月从3800亿到8000亿
Anthropic今年2月Series G的估值是3800亿美元。到了4月14号,二级市场(Caplight)已经到了6880亿,VC那边有人出到了8000亿美元——离OpenAI的8520亿只差6%。
年化收入从去年12月的90亿涨到了现在的300亿,4个月翻了3倍多。Enterprise客户里年消费超100万美元的有1000+家——两个月前还是500家。
Claude Code是最大的增长引擎,已经在企业级市场反超了GitHub Copilot。
我的看法
Opus 4.7是个扎实的产品升级,代码能力、Agent能力、视觉能力都有实质性提升,价格不变,迁移成本也不高(除了tokenizer变了需要重新测算token消耗)。
但真正值得思考的是Mythos的存在意味着什么。
当最强AI模型因为"太危险"而只能限制在12家机构内部使用的时候,我们面对的已经不是技术问题了,而是一个全新的治理难题。
Anthropic说会在90天内(大约7月份)发布一份全面的公开报告。到时候看看他们怎么解释这个"只给大厂用、不给普通人用"的决定吧。
对了,Opus 4.7还有一个有意思的细节:它的CyberGym成绩和4.6基本持平。Anthropic说是故意压低了攻击性网络安全能力。和Mythos的100% Cybench放在一起看,味道就很微妙了——他们不是做不出来,而是选择不给你。
主要参考来源: