Claude Opus 4.7 深夜突袭！编程碾压 GPT-5.4，视觉暴涨 3 倍！4 月 16 日，Anthropi

官方承认：我们手里有一个更强的模型，但不敢放出来。这次发布的 Opus 4.7，是经过“安全降级”的版本。

4 月 16 日，Anthropic 毫无预兆地上线了 Claude Opus 4.7。

没有发布会，没有炒作。官方措辞甚至有点低调——“这是 Opus 4.6 的一次显著改进”。

但如果你翻开公告全文，会发现事情远没有那么简单。

编程能力碾压 GPT-5.4，视觉分辨率翻了三倍，价格一分没涨。

而更劲爆的是：Anthropic 手里明明握着一个更强的模型 Claude Mythos Preview，却因为“网络安全风险”，主动把它锁进了保险柜。这次发布的 Opus 4.7，是刻意削减能力后的“降级版”。

一、编程封神：独立完成你以前必须盯着的任务

Opus 4.7 最大的升级，是 agentic coding（智能体编程）。

官方早期用户报告显示：以前那些需要你密切监督、一步一步指导的高难度编码任务，现在可以放心交给 Opus 4.7 独立跑完整流程。

它不仅能严谨、一致地处理复杂的长线任务，还会在汇报结果之前 主动设计验证方式，检查自己的输出是否正确。

硬数据说话：

在 SWE-bench Pro 上，Opus 4.7 得分 64.3%，远超 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。
在 SWE-bench Verified 上，Opus 4.7 达到 87.6%，同样碾压 Gemini 的 80.6%。

第三方金融分析评测 Finance Agent 上，Opus 4.7 已经取得 state-of-the-art 成绩。一家服务数百万消费者的金融科技平台评价：“这种速度与精度的结合可能是颠覆性的。”

Hex 直接给出结论：Opus 4.7 是他们评测过的最强模型。 它会在数据缺失时如实报告，而不是编造一个看似合理的错误答案——这一点连 Opus 4.6 都做不到。

📊 官方基准测试全图（编程、视觉、推理、金融…全面领先）

二、视觉能力：分辨率暴涨 3 倍，原图直给

Opus 4.7 支持长边最高 2,576 像素（约 375 万像素），是之前 Claude 模型的三倍多。

高分辨率截图、复杂图表、需要精确读取屏幕内容的任务——过去必须压缩图片，牺牲细节。现在 原图直接丢进去。

XBOW 的测试结果令人震惊： 在视觉锐度基准中，Opus 4.7 得分 98.5%，而 Opus 4.6 只有 54.5%。这一提升直接解锁了之前完全无法使用 Claude 的一整类工作。

三、最劲爆的内幕：Opus 4.7 是“阉割版”，真正的王炸被雪藏

公告中藏着一个不能说的秘密。

上个月，Anthropic 公布了 Project Glasswing，展示了 AI 在网络安全领域的惊人能力。公司手里有一个更强大的模型——Claude Mythos Preview。

Mythos 有多恐怖？ 它能自主发现主流操作系统和浏览器中的零日漏洞，并编写攻击代码，已经识别出数千个此类漏洞。

能力太强，风险太大。所以 Mythos 目前只对极少数合作企业开放。

而 Opus 4.7 是经过“差异化安全削减”的版本。Anthropic 在训练时特意降低了它的网络安全能力，并配备了自动防护机制，会拦截高风险的安全请求。

如果你是需要做合法网络安全研究（漏洞挖掘、渗透测试、红队演练）的研究人员，必须申请 Cyber Verification Program 才能合规使用。

至于 Mythos 什么时候能面向大众？官方没有给出时间表。

四、Claude Code 同步升级

伴随 Opus 4.7，Claude Code 也迎来一波重磅更新：

/ultrareview 命令：深度代码审查，自动找出 bug 和设计问题。Pro/Max 用户免费试用三次。
xhigh 推理档位：介于 high 和 max 之间。所有套餐默认推理力度已全部提升至 xhigh。
Auto 模式：允许 Claude 自主决策、连续执行，首次向 Max 用户全面开放。
task budgets 公测：更精细地控制多轮任务中的 token 分配。

五、你的账单可能会变贵

这是所有开发者和企业用户必须注意的一点。

Opus 4.7 换了 tokenizer。同样一段文本，新 tokenizer 消耗的 token 数量是过去的 1.0 到 1.35 倍。

单价没变（输入 $5/百万 token，输出$ 25/百万 token），但“计量单位”变了。再加上高推理档位下模型思考更深入、输出 token 更长，你的实际账单可能比过去有所增加。

Anthropic 的建议很坦诚：拿自己的真实流量先跑一遍，算清楚再决定是否迁移。

六、合作伙伴集体炸锅：这些案例太强了

Replit：“它会在技术讨论中主动反驳你，帮我做出更好的决策，感觉就像一个更优秀的同事。”
Harvey（法律科技）：在 BigLaw Bench 上得分 90.9%，正确区分“转让条款”和“控制权变更条款”——以往前沿模型一直做不到。
Notion Agent：复杂多步工作流提升 14%，工具错误减少到原来的三分之一，是首个通过其“隐式需求测试”的模型。
Warp：解决了 Opus 4.6 一直搞不定的并发 bug，并通过了之前所有 Claude 模型都无法完成的终端任务。
有测试者反馈，Opus 4.7 完全自主地从一个 Rust 文本转语音引擎开始，构建了神经网络模型、SIMD 内核、浏览器演示版，然后用输出验证是否与 Python 参考版本一致。而 Opus 4.6 做不到这一点。

七、一句话总结

维度	结论
编程	SWE-bench 碾压 GPT-5.4 和 Gemini，金融分析 SOTA
视觉	分辨率 3 倍，锐度从 54.5% 飙到 98.5%
安全	故意降级，更强的 Mythos 被雪藏
价格	单价不变，但 tokenizer 换了，账单可能微涨
可用	claude.ai、API、AWS、Google、Azure、Cursor 全平台上线

现在就可以去 claude.ai 体验 Opus 4.7。

拿你手上最复杂、最需要耐心的编程任务去试试——看看这个“碾压 GPT-5.4”的模型，到底能帮你省下多少时间。

官方公告：anthropic.com/news/claude…