Claude Opus 4.7 深夜突袭!编程碾压 GPT-5.4,视觉暴涨 3 倍!

0 阅读5分钟

官方承认:我们手里有一个更强的模型,但不敢放出来。这次发布的 Opus 4.7,是经过“安全降级”的版本。


4 月 16 日,Anthropic 毫无预兆地上线了 Claude Opus 4.7

没有发布会,没有炒作。官方措辞甚至有点低调——“这是 Opus 4.6 的一次显著改进”。

但如果你翻开公告全文,会发现事情远没有那么简单。

编程能力碾压 GPT-5.4,视觉分辨率翻了三倍,价格一分没涨。

而更劲爆的是:Anthropic 手里明明握着一个更强的模型 Claude Mythos Preview,却因为“网络安全风险”,主动把它锁进了保险柜。这次发布的 Opus 4.7,是刻意削减能力后的“降级版”。


一、编程封神:独立完成你以前必须盯着的任务

Opus 4.7 最大的升级,是 agentic coding(智能体编程)。

官方早期用户报告显示:以前那些需要你密切监督、一步一步指导的高难度编码任务,现在可以放心交给 Opus 4.7 独立跑完整流程。

它不仅能严谨、一致地处理复杂的长线任务,还会在汇报结果之前 主动设计验证方式,检查自己的输出是否正确

硬数据说话:

SWE-bench Pro 上,Opus 4.7 得分 64.3%,远超 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。
SWE-bench Verified 上,Opus 4.7 达到 87.6%,同样碾压 Gemini 的 80.6%。

第三方金融分析评测 Finance Agent 上,Opus 4.7 已经取得 state-of-the-art 成绩。一家服务数百万消费者的金融科技平台评价:“这种速度与精度的结合可能是颠覆性的。”

Hex 直接给出结论:Opus 4.7 是他们评测过的最强模型。 它会在数据缺失时如实报告,而不是编造一个看似合理的错误答案——这一点连 Opus 4.6 都做不到。

📊 官方基准测试全图(编程、视觉、推理、金融…全面领先)

二、视觉能力:分辨率暴涨 3 倍,原图直给

Opus 4.7 支持长边最高 2,576 像素(约 375 万像素),是之前 Claude 模型的三倍多。

高分辨率截图、复杂图表、需要精确读取屏幕内容的任务——过去必须压缩图片,牺牲细节。现在 原图直接丢进去

XBOW 的测试结果令人震惊: 在视觉锐度基准中,Opus 4.7 得分 98.5%,而 Opus 4.6 只有 54.5%。这一提升直接解锁了之前完全无法使用 Claude 的一整类工作。

三、最劲爆的内幕:Opus 4.7 是“阉割版”,真正的王炸被雪藏

公告中藏着一个不能说的秘密。

上个月,Anthropic 公布了 Project Glasswing,展示了 AI 在网络安全领域的惊人能力。公司手里有一个更强大的模型——Claude Mythos Preview

Mythos 有多恐怖? 它能自主发现主流操作系统和浏览器中的零日漏洞,并编写攻击代码,已经识别出数千个此类漏洞。

能力太强,风险太大。所以 Mythos 目前只对极少数合作企业开放。

Opus 4.7 是经过“差异化安全削减”的版本。Anthropic 在训练时特意降低了它的网络安全能力,并配备了自动防护机制,会拦截高风险的安全请求。

如果你是需要做合法网络安全研究(漏洞挖掘、渗透测试、红队演练)的研究人员,必须申请 Cyber Verification Program 才能合规使用。

至于 Mythos 什么时候能面向大众?官方没有给出时间表。

四、Claude Code 同步升级

伴随 Opus 4.7,Claude Code 也迎来一波重磅更新:

  • /ultrareview 命令:深度代码审查,自动找出 bug 和设计问题。Pro/Max 用户免费试用三次。
  • xhigh 推理档位:介于 high 和 max 之间。所有套餐默认推理力度已全部提升至 xhigh。
  • Auto 模式:允许 Claude 自主决策、连续执行,首次向 Max 用户全面开放。
  • task budgets 公测:更精细地控制多轮任务中的 token 分配。

五、你的账单可能会变贵

这是所有开发者和企业用户必须注意的一点。

Opus 4.7 换了 tokenizer。同样一段文本,新 tokenizer 消耗的 token 数量是过去的 1.0 到 1.35 倍

单价没变(输入 5/百万token,输出5/百万 token,输出 25/百万 token),但“计量单位”变了。再加上高推理档位下模型思考更深入、输出 token 更长,你的实际账单可能比过去有所增加

Anthropic 的建议很坦诚:拿自己的真实流量先跑一遍,算清楚再决定是否迁移。

六、合作伙伴集体炸锅:这些案例太强了

  • Replit:“它会在技术讨论中主动反驳你,帮我做出更好的决策,感觉就像一个更优秀的同事。”
  • Harvey(法律科技):在 BigLaw Bench 上得分 90.9%,正确区分“转让条款”和“控制权变更条款”——以往前沿模型一直做不到。
  • Notion Agent:复杂多步工作流提升 14%,工具错误减少到原来的三分之一,是首个通过其“隐式需求测试”的模型。
  • Warp:解决了 Opus 4.6 一直搞不定的并发 bug,并通过了之前所有 Claude 模型都无法完成的终端任务。
  • 有测试者反馈,Opus 4.7 完全自主地从一个 Rust 文本转语音引擎开始,构建了神经网络模型、SIMD 内核、浏览器演示版,然后用输出验证是否与 Python 参考版本一致。而 Opus 4.6 做不到这一点。

七、一句话总结

维度结论
编程SWE-bench 碾压 GPT-5.4 和 Gemini,金融分析 SOTA
视觉分辨率 3 倍,锐度从 54.5% 飙到 98.5%
安全故意降级,更强的 Mythos 被雪藏
价格单价不变,但 tokenizer 换了,账单可能微涨
可用claude.ai、API、AWS、Google、Azure、Cursor 全平台上线

现在就可以去 claude.ai 体验 Opus 4.7。

拿你手上最复杂、最需要耐心的编程任务去试试——看看这个“碾压 GPT-5.4”的模型,到底能帮你省下多少时间。


官方公告:anthropic.com/news/claude…