导语
2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7——这是该公司旗舰序列 Opus 的最新迭代,距 Opus 4.6 发布仅间隔两个月,延续了每两个月一次的稳定升级节奏。
这一次,Opus 4.7 带来的不只是数字上的跳跃。在软件工程能力、视觉理解精度、长周期自主执行三个维度,它均实现了质的飞跃——让 AI 处理真实世界复杂任务的可能性,又向前推进了一大步。
"用户现在可以放心地将此前需要严密人工监督的最复杂编码任务交给 Opus 4.7,无需全程盯梢。"
— Anthropic 官方发布说明
📊 核心数据一览
| 指标 | Opus 4.7 | Opus 4.6 | 提升幅度 |
|---|---|---|---|
| 生产任务解决量(Rakuten-SWE-Bench) | — | — | 3× |
| CursorBench 编程基准 | 70% | 58% | +12pp |
| XBOW 视觉敏锐度 | 98.5% | 54.5% | +44pp |
| Finance Agent 评估 | 0.813 | 0.767 | +6% |
| 93项编码基准解决率 | — | — | +13% |
| 图像最大分辨率(长边) | 2576px | ~860px | 3× |
💻 编程能力:三倍跃升
软件工程是 Opus 4.7 最耀眼的升级方向。在 Anthropic 官方评估以及第三方实测中,它的编程能力远超 GPT-5.4 和 Gemini 3.1 Pro,逼近当前最强的 Claude Mythos Preview。
核心提升
- • 生产任务解决量是 Opus 4.6 的 3 倍(Rakuten-SWE-Bench)
- • CursorBench 达到 70% (前代 58%)
- • 93 项编码基准测试解决率比 Opus 4.6 提升 13% ,其中包含 4 项前代无法解决的任务
- • 能够减少无意义的包装函数和脚手架代码,修复自身逻辑错误
自主工程案例
Opus 4.7 从零开始,自主构建了一套完整的 Rust 文本转语音引擎,包括:
- • 神经网络模型
- • SIMD 内核
- • 浏览器演示界面
- • 通过语音识别器验证输出
这相当于高级工程师数月的工作量,全程无需人工干预。
✅ 关键特性:规划阶段自我捕获错误
Opus 4.7 在开始执行前会主动检查逻辑错误,而非执行到一半才发现问题——大幅降低了长链路任务的失败率。
👁 视觉能力:从及格到满分
视觉理解是本次升级中最具戏剧性的一项。XBOW 视觉基准测试得分从 54.5% 骤升至 98.5% ,几乎是翻倍。
XBOW 视觉基准对比
Opus 4.7 ████████████████████████████████████████ 98.5%
Opus 4.6 ██████████████████████░░░░░░░░░░░░░░░░░░ 54.5%
技术规格升级
- • 支持长边最大 2,576 像素(约 375 万像素),是前代 Claude 的 3 倍以上
- • 这是模型级别的变更,发送给 Claude 的图片会自动以更高保真度处理,无需额外 API 参数
实际能力提升
- • 读取化学分子结构式、解析复杂技术图表
- • 计算机控制代理可以精确阅读密集截图
- • 生成更高质量的界面、幻灯片和文档
- • 从复杂图表中提取数据,支持像素级精准参考
⚠️ 注意: 高分辨率图像会消耗更多 Token。如果不需要额外细节,建议提前对图像进行降采样以控制成本。
🤖 长周期自主性:真正的"放手执行"
Opus 4.7 最核心的目标之一,是让 AI 能够在数小时内独立、连贯地完成复杂任务。
执行链路的五步进化
-
- 规划阶段:主动捕获逻辑错误
在开始执行前,Opus 4.7 会自行检视计划漏洞,避免执行中途被迫中断。
- 规划阶段:主动捕获逻辑错误
-
- 执行阶段:抗循环能力大幅提升
Genspark 测试数据显示,Opus 4.6 中约 1/18 的查询会陷入无效循环,Opus 4.7 已大幅改善。
- 执行阶段:抗循环能力大幅提升
-
- 工具调用:错误率降低三分之一
Notion 内部测试显示,工具调用错误率减少约 33% ,复杂工作流更加稳定可靠。
- 工具调用:错误率降低三分之一
-
- 验证阶段:输出前自我核查
Opus 4.7 在交付最终结果前会主动验证工作,相当于内置了一层"代码审查"机制。
- 验证阶段:输出前自我核查
-
- 记忆能力:跨会话记住关键信息
更擅长利用文件系统记忆,在多会话、长周期项目中减少重复上下文输入。
- 记忆能力:跨会话记住关键信息
✨ 同步推出的新功能
① xhigh 推理等级
新增介于 high 和 max 之间的 xhigh 等级,让开发者在推理深度与延迟之间拥有更精细的调节空间。
- • Claude Code 已将默认等级提升至
xhigh - • 推荐编码和代理场景从
high或xhigh开始
② Task Budgets(任务预算)— 公测上线
开发者可以通过 API 引导 Token 支出,在长时间运行的代理任务中优先分配计算资源,有效控制成本。
③ /ultrareview 命令
Claude Code 新增斜杠命令,启动专属审查会话:
- • 像资深工程师一样通读代码改动
- • 主动标记 Bug 和设计问题
- • Pro / Max 用户可获得 3 次免费试用
④ Auto 模式向 Max 用户开放
此前仅限特定用户的 Auto 模式(Claude 自主决策、减少中断)现已对所有 Max 订阅用户开放。
📈 金融与专业领域:悄悄登顶
| 评测基准 | Opus 4.7 | Opus 4.6 | 行业领先 |
|---|---|---|---|
| Finance Agent 评估 | 0.813 | 0.767 | ✅ 是 |
| GDPval-AA(金融/法律综合) | 业界领先 | — | ✅ 是 |
| Harvey BigLaw Bench(法律) | 90.9% | — | ✅ 是 |
| CursorBench(编程) | 70% | 58% | ✅ 是 |
| XBOW 视觉敏锐度 | 98.5% | 54.5% | ✅ 是 |
💰 定价不变,迁移需注意
定价与前代一致
| 类型 | 价格 |
|---|---|
| 输入 Token | $5 / 百万 token |
| 输出 Token | $25 / 百万 token |
迁移注意事项
⚠️ 从 Opus 4.6 升级时请注意以下变化:
- • 新分词器:相同内容可能产生约 1.0–1.35× 的 Token,建议重新评估成本
- • 指令遵循更"字面化" :旧 Prompt 可能产生意外结果,建议重新调优
- • 实际效果:在编码场景中,整体 Token 使用效率实际提升
支持平台
- • Claude 全产品线
- • Anthropic API(模型名:
claude-opus-4-7) - • Amazon Bedrock
- • Google Cloud Vertex AI
- • Microsoft Foundry
🛡️ 安全与对齐:进步中的谨慎
Opus 4.7 整体安全档案与 Opus 4.6 相似:
- • ✅ 诚实度提升
- • ✅ 抵御恶意提示注入攻击能力增强
- • ⚠️ 受控物质的减害建议可能过于详细
作为 Project Glasswing 的一部分,Opus 4.7 的网络攻击相关能力被刻意差异化降低,并配备了自动检测和拦截高风险网络安全请求的防护层。合法安全专业人员可申请 Cyber Verification Program 以获得授权访问。
🚀 总结:AI 走向真正自主的又一步
Claude Opus 4.7 的发布,标志着 AI 处理复杂、长周期真实任务的能力再次显著提升:
- • 🔧 编程能力三倍跃升,真正做到"放手交给 AI"
- • 👁 视觉精度几乎翻倍,从及格到满分
- • 🤖 自主执行更稳定,抗循环、自验证、跨会话记忆
- • 💰 定价不变,性价比更高
更重要的是,这次的进步不以涨价为代价。对于已在使用 Claude API 的开发者来说,升级路径清晰,只需适当调优 Prompt,即可享受显著的能力提升。
在 AI 加速迭代的今天,每两个月一次的旗舰级升级,正在悄悄重塑我们对"AI 能做什么"的预期上限。