官方承认:我们手里有一个更强的模型,但不敢放出来。这次发布的 Opus 4.7,是经过“安全降级”的版本。
4 月 16 日,Anthropic 毫无预兆地上线了 Claude Opus 4.7。
没有发布会,没有炒作。官方措辞甚至有点低调——“这是 Opus 4.6 的一次显著改进”。
但如果你翻开公告全文,会发现事情远没有那么简单。
编程能力碾压 GPT-5.4,视觉分辨率翻了三倍,价格一分没涨。
而更劲爆的是:Anthropic 手里明明握着一个更强的模型 Claude Mythos Preview,却因为“网络安全风险”,主动把它锁进了保险柜。这次发布的 Opus 4.7,是刻意削减能力后的“降级版”。
一、编程封神:独立完成你以前必须盯着的任务
Opus 4.7 最大的升级,是 agentic coding(智能体编程)。
官方早期用户报告显示:以前那些需要你密切监督、一步一步指导的高难度编码任务,现在可以放心交给 Opus 4.7 独立跑完整流程。
它不仅能严谨、一致地处理复杂的长线任务,还会在汇报结果之前 主动设计验证方式,检查自己的输出是否正确。
硬数据说话:
在 SWE-bench Pro 上,Opus 4.7 得分 64.3%,远超 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。
在 SWE-bench Verified 上,Opus 4.7 达到 87.6%,同样碾压 Gemini 的 80.6%。
第三方金融分析评测 Finance Agent 上,Opus 4.7 已经取得 state-of-the-art 成绩。一家服务数百万消费者的金融科技平台评价:“这种速度与精度的结合可能是颠覆性的。”
Hex 直接给出结论:Opus 4.7 是他们评测过的最强模型。 它会在数据缺失时如实报告,而不是编造一个看似合理的错误答案——这一点连 Opus 4.6 都做不到。
📊 官方基准测试全图(编程、视觉、推理、金融…全面领先)
二、视觉能力:分辨率暴涨 3 倍,原图直给
Opus 4.7 支持长边最高 2,576 像素(约 375 万像素),是之前 Claude 模型的三倍多。
高分辨率截图、复杂图表、需要精确读取屏幕内容的任务——过去必须压缩图片,牺牲细节。现在 原图直接丢进去。
XBOW 的测试结果令人震惊: 在视觉锐度基准中,Opus 4.7 得分 98.5%,而 Opus 4.6 只有 54.5%。这一提升直接解锁了之前完全无法使用 Claude 的一整类工作。
三、最劲爆的内幕:Opus 4.7 是“阉割版”,真正的王炸被雪藏
公告中藏着一个不能说的秘密。
上个月,Anthropic 公布了 Project Glasswing,展示了 AI 在网络安全领域的惊人能力。公司手里有一个更强大的模型——Claude Mythos Preview。
Mythos 有多恐怖? 它能自主发现主流操作系统和浏览器中的零日漏洞,并编写攻击代码,已经识别出数千个此类漏洞。
能力太强,风险太大。所以 Mythos 目前只对极少数合作企业开放。
而 Opus 4.7 是经过“差异化安全削减”的版本。Anthropic 在训练时特意降低了它的网络安全能力,并配备了自动防护机制,会拦截高风险的安全请求。
如果你是需要做合法网络安全研究(漏洞挖掘、渗透测试、红队演练)的研究人员,必须申请 Cyber Verification Program 才能合规使用。
至于 Mythos 什么时候能面向大众?官方没有给出时间表。
四、Claude Code 同步升级
伴随 Opus 4.7,Claude Code 也迎来一波重磅更新:
/ultrareview命令:深度代码审查,自动找出 bug 和设计问题。Pro/Max 用户免费试用三次。xhigh推理档位:介于 high 和 max 之间。所有套餐默认推理力度已全部提升至 xhigh。- Auto 模式:允许 Claude 自主决策、连续执行,首次向 Max 用户全面开放。
- task budgets 公测:更精细地控制多轮任务中的 token 分配。
五、你的账单可能会变贵
这是所有开发者和企业用户必须注意的一点。
Opus 4.7 换了 tokenizer。同样一段文本,新 tokenizer 消耗的 token 数量是过去的 1.0 到 1.35 倍。
单价没变(输入 25/百万 token),但“计量单位”变了。再加上高推理档位下模型思考更深入、输出 token 更长,你的实际账单可能比过去有所增加。
Anthropic 的建议很坦诚:拿自己的真实流量先跑一遍,算清楚再决定是否迁移。
六、合作伙伴集体炸锅:这些案例太强了
- Replit:“它会在技术讨论中主动反驳你,帮我做出更好的决策,感觉就像一个更优秀的同事。”
- Harvey(法律科技):在 BigLaw Bench 上得分 90.9%,正确区分“转让条款”和“控制权变更条款”——以往前沿模型一直做不到。
- Notion Agent:复杂多步工作流提升 14%,工具错误减少到原来的三分之一,是首个通过其“隐式需求测试”的模型。
- Warp:解决了 Opus 4.6 一直搞不定的并发 bug,并通过了之前所有 Claude 模型都无法完成的终端任务。
- 有测试者反馈,Opus 4.7 完全自主地从一个 Rust 文本转语音引擎开始,构建了神经网络模型、SIMD 内核、浏览器演示版,然后用输出验证是否与 Python 参考版本一致。而 Opus 4.6 做不到这一点。
七、一句话总结
| 维度 | 结论 |
|---|---|
| 编程 | SWE-bench 碾压 GPT-5.4 和 Gemini,金融分析 SOTA |
| 视觉 | 分辨率 3 倍,锐度从 54.5% 飙到 98.5% |
| 安全 | 故意降级,更强的 Mythos 被雪藏 |
| 价格 | 单价不变,但 tokenizer 换了,账单可能微涨 |
| 可用 | claude.ai、API、AWS、Google、Azure、Cursor 全平台上线 |
现在就可以去 claude.ai 体验 Opus 4.7。
拿你手上最复杂、最需要耐心的编程任务去试试——看看这个“碾压 GPT-5.4”的模型,到底能帮你省下多少时间。