Claude Opus 4.7 深度解读:代码能力暴涨7%,但Anthropic不敢放出的那个模型才叫恐怖

1 阅读1分钟

Claude Opus 4.7 深度解读:代码能力暴涨7%,但Anthropic不敢放出的那个模型才叫恐怖

HN上昨天最火的一帖,1823分,1318条评论——Anthropic发布了Claude Opus 4.7。

我翻了一晚上外网资料(主要是Anthropic官方blog、Vellum的benchmark拆解、llm-stats的定价分析,还有HN上的讨论帖),说说我的理解。

先说数字

SWE-bench Verified从80.8%干到87.6%,涨了6.8个百分点。

这个benchmark测的是什么?给模型一个真实的GitHub issue,看它能不能自己定位、写代码、过测试。87.6%意味着——接近9成的真实bug,它能自己修了。

更狠的是SWE-bench Pro,从53.4%飙到64.3%,涨了10.9个百分点。Pro版本测的是更复杂的、跨语言的生产级问题。这个提升幅度是近年来所有模型迭代里最大的。

Rakuten(对,就是那个日本电商巨头)拿去实测了,生产环境任务完成量直接翻了3倍。Cursor那边也报告说CursorBench从58%涨到了70%。

价格没变,5/5/25 per million tokens,和4.6一模一样。

等于加量不加价。

四个真正重要的新特性

大家都在聊benchmark数字,但我觉得真正有意思的是四个不太显眼的变化:

1. 自验证——它会自己查自己了

Anthropic的原文是"devises ways to verify its own outputs before reporting back"。

说白了就是:模型在完成任务之前,会主动写测试、跑检查、审视自己的输出,确认没问题了才交给你。

Vercel那边反馈说Opus 4.7"会在动手之前先对系统代码做证明"——这个行为在之前的Claude模型里从没出现过。

这个feature对长时运行的Agent场景太重要了。你让一个Agent跑24小时改代码,中途没人盯着,它要是不能自己查错,那就是定时炸弹。

2. 更"听话"——字面理解你的指令

这个反而是个双刃剑

4.7会字面理解你的prompt,不再像之前那样"揣摩你的意思"。你写的bullet list,以前可能被当成"建议",现在会被当成"硬性要求"。

迁移的时候要注意——如果你的prompt是按4.6的"宽松理解"风格调的,升到4.7可能会出意外结果。建议大规模迁移之前先审计一遍system prompt。

3. 跨会话记忆——终于能"记住"了

4.7有了更好的文件系统记忆能力。什么意思?就是它可以在不同session之间读写和复用持久化的笔记文件。

你今天让Agent做了一半的工作,明天接着来,它不需要你从头再描述一遍上下文了。这个改动让Agent的工作周期从"分钟级"扩展到了"天级"。

4. 视觉能力暴涨3.3倍

图片分辨率从1568像素提升到2576像素(长边),像素面积涨了3.3倍。

XBOW报告的视觉benchmark从54.5%飙到98.5%——这个跳跃太离谱了。CharXiv视觉推理也涨了13个百分点。

如果你的Agent需要读UI截图、仪表盘、技术图表,这个升级是质变级别的。

一个不太好的信号:BrowseComp退步了

BrowseComp(网页搜索能力benchmark)从83.7%掉到了79.3%,跌了4.4个百分点。

同期GPT-5.4 Pro是89.3%,Gemini 3.1 Pro是85.9%,差距不小。

Anthropic的解释是harness选择导致的——4.6之前用的是多Agent框架在max effort下跑的,4.7换成了统一框架。但说实话,如果你重度依赖Agent做深度网页调研,别急着切4.7,GPT-5.4 Pro在这个场景上依然更稳。

xhigh——新的推理档位

之前effort level是 low → medium → high → max 四档,4.7加了个 xhigh,插在high和max之间。

为什么?因为max实在太慢了。很多场景你需要"比high更深入一些",但不想承受max的延迟和token消耗。xhigh就是这个中间地带。

Claude Code现在默认档位已经改成了xhigh。

还有个新feature叫Task Budgets(公测中),可以给长任务设定token消耗上限。配合xhigh用,相当于说:"给我使劲想,但别超过N个token。"对多Agent场景特别有用——一个分支开始"上头"疯狂消耗token的时候,能拉住它。

好了,以上都是铺垫。接下来才是这篇文章真正想说的。

Opus 4.7很强,对吧?

但Anthropic手里有一个比Opus 4.7强得多的模型,他们不敢放出来。

它叫 Claude Mythos

3月26号,Anthropic的CMS配置出了个失误,Mythos的存在被两个安全研究员(Roy Paz和Alexandre Pauwels)意外发现了。4月7号,Anthropic被迫正式公开——附带一份244页的System Card。

先看数字:

BenchmarkMythosOpus 4.6Opus 4.7
SWE-bench Verified93.9%80.8%87.6%
SWE-bench Pro77.8%53.4%64.3%
USAMO(美国数学奥赛)97.6%42.3%未公布
Cybench(安全CTF)100%
GraphWalks BFS(长上下文)80.0%38.7%未公布

几个让人头皮发麻的数据点:

  • SWE-bench Verified 93.9%——超过大多数职业软件工程师的水平
  • USAMO从42.3%跳到97.6%——一代模型之间,数学竞赛能力直接从"还行"变成"接近满分"
  • Cybench 100%——满分,benchmark已经不再有区分度了
  • 它发现了数千个零日漏洞,包括一个在OpenBSD里藏了27年的bug

27年。

这就是为什么Anthropic不敢把它放出来。

Project Glasswing——只给12家机构用

Anthropic搞了个叫"Glasswing"(玻璃翼蝴蝶)的项目,把Mythos独家部署给了12家"关键基础设施"合作伙伴:

AWS、Apple、Google、Microsoft、NVIDIA、Cisco、CrowdStrike、JPMorgan、Broadcom、Palo Alto Networks、Linux Foundation,还有一家没公开的。

看出来了吗?全是操作系统、芯片、网络安全、金融基础设施的核心玩家。

价格也是离谱的:25/25/125 per million tokens(Opus 4.7的五倍)。而且Anthropic还给了$1亿的免费credits——等于前期的安全审计基本是倒贴在做。

估值:两个月从3800亿到8000亿

Anthropic今年2月Series G的估值是3800亿美元。到了4月14号,二级市场(Caplight)已经到了6880亿,VC那边有人出到了8000亿美元——离OpenAI的8520亿只差6%。

年化收入从去年12月的90亿涨到了现在的300亿,4个月翻了3倍多。Enterprise客户里年消费超100万美元的有1000+家——两个月前还是500家。

Claude Code是最大的增长引擎,已经在企业级市场反超了GitHub Copilot。

我的看法

Opus 4.7是个扎实的产品升级,代码能力、Agent能力、视觉能力都有实质性提升,价格不变,迁移成本也不高(除了tokenizer变了需要重新测算token消耗)。

但真正值得思考的是Mythos的存在意味着什么。

当最强AI模型因为"太危险"而只能限制在12家机构内部使用的时候,我们面对的已经不是技术问题了,而是一个全新的治理难题

Anthropic说会在90天内(大约7月份)发布一份全面的公开报告。到时候看看他们怎么解释这个"只给大厂用、不给普通人用"的决定吧。

对了,Opus 4.7还有一个有意思的细节:它的CyberGym成绩和4.6基本持平。Anthropic说是故意压低了攻击性网络安全能力。和Mythos的100% Cybench放在一起看,味道就很微妙了——他们不是做不出来,而是选择不给你。


主要参考来源: