Claude Opus 4.7 发布！留给人类的时间，不多了<section "microsoft="" "pingfa

就在刚才，新一代的 Claude Opus 4.7 正式登场！

Opus 4.7 发布

此版本的关键改进，与不久前亮相的 Routines 功能一脉相承：旨在让 AI 能够处理更耗时、更繁琐的任务，并且具备自我审视结果的能力，从而让你不必时刻监督。

至于价格，它和 4.6 版本保持一致，每百万 token 的输入与输出分别为 $5 和 $25。

一个会自我审视答案的模型

Opus 4.7 新增了一项以往不甚显著的本领：在提交最终成果前，会先进行一轮自我校验。

一旦觉察到差错，它便在内部自行修正，然后再呈现答案。

这听着似乎不难，可若置于自动化执行的情境中，其重要性便凸显出来。过去，我们让模型连续执行数小时的工作，结果到头来才发觉某个环节出了纰漏。

如今，它不仅能自行发现问题，还能自我纠正。

你需要人工干预的环节，又少了一个。

Claude 自我验证流程对比

某电商平台用 Opus 4.7 运行实际生产任务，问题解决率提高了三倍，代码品质据称「有了十个数量级以上的飞跃」。

对于多任务流程，新版本较 4.6 性能高出 14%，其工具调用的失败率减少了近三分之一，同时 token 的耗用也更少了。

基准测试对比

不仅更可靠，还更经济。

视觉能力的大幅跃升

这次视觉能力的增强，简直有点夸张。

Opus 4.7 现在能处理长边达 2576 像素的图片，总计约 375 万像素，分辨率是先前版本的三倍还多。

官方列举的应用场景，如生成UI原型、创建演示文稿、分析化学结构和工程图表等，均属于那种对细节要求极高、差之毫厘便谬以千里的任务。

视觉能力基准

接着是某科技公司提供的数据：在计算机视觉感知基准测试中，Opus 4.7 的得分高达 98.5%，而 Opus 4.6 仅为 54.5%。

从 54.5% 飙升至 98.5%……这可不是闹着玩的。

该公司的评价是：「彻底根治了我们的核心难题。」

视觉感知：54.5% vs 98.5%

这种飞跃，对于自动化任务而言意义非凡。

以往让 AI 识别截图、读取界面、解析图文混排文档时，失误率肉眼可见。这次分辨率的提升，为它可靠地处理视觉任务奠定了基石。

一个愈发全能的编程专家

编程能力对比

某代码编辑器在自家基准测试上的数据表明：Opus 4.7 得分 70%，而 4.6 版为 58%。

另一家知名笔记应用的反馈是：整体效能提高了 14%，工具调用错误率降低了约三分之一，并首次通过了「隐含需求」的测试，也就是那些未明说但理应领会的需求。

某代码审查工具的应用表明：在处理最复杂的 PR 时，召回率增长超过 10%，而精确度几乎未受影响。

而某数据平台则专注于文档推理，其错误率降低了 21%。

新增 /ultrareview 指令

这次，Claude Code 还加入了一个 /ultrareview 命令，用以启动一轮深度的代码审查。

它会通读所有变更，找出一位严谨的审查者会关注的问题，涵盖了 bug 和设计层面的潜在风险。

你无需再开启新对话，或手动请求它进行检查。

仅需一条指令，它便能自行完成并生成一份报告。

Auto Mode 也已对 Max 用户开放了，使得更长周期的任务运行时不易被中断。结合前不久上线的 Routines，你完全可以在睡前配置好任务和触发条件，第二天一早坐收成果。

如此一来，让「AI 替你守夜班」这件事，正变得愈发自然。

API 新增调节档位

对于开发者而言，本次更新增加了一个 xhigh 推理等级，介于 high 和 max 之间。

过去 high 与 max 之间的档位跨度较大，现在有了这个中间档，便能在推理深度与响应速度间做出更精细的权衡。

推理档位：从两档到精调

此外，默认的 effort 等级也已从 high 提升至 xhigh，这意味着即便不做任何改动，模型本身也应该比过去更严谨了。

另外还有 Task Budgets（测试版）功能，它能让模型在执行长任务时自主管理 token 消耗，判断何处应投入更多资源，何处可以节省。该功能尚处测试，但方向无疑是正确的。

迁移注意事项

本次更新了分词器（tokenizer），对于同样的输入，产生的 token 数量会比以往多出约 0% 到 35% 不等。

这样做的好处是模型能获取更全面的信息，从而输出更可靠的结果。代价则是成本可能会有所增加。

如果你的工作流对 token 计费非常敏感，切换版本时需要多加留意，官方提供了相应的迁移指南。

留给我们的窗口期，正在收窄

今天，一个能执行更长任务、懂得自我检查、并且视觉能力显著增强的模型问世了。

几天前，Routines 功能上线，AI 开始主动巡查，即便你不召唤，它也会自己留意。

再算上 1M 上下文、子智能体、/ultrareview 指令……

这些更新若单独审视，都只是「一个微小的功能」。

然而将它们拼凑起来，我发觉一件事正在悄然发生：AI 对人类干预的依赖，正在一点点地减少。

当你凌晨两点酣睡时，它在帮你审查代码提交。

当你周末去远足时，它在帮你同步团队文档。

当你外出用餐时，它在帮你运行测试用例。

我有时不禁会想，这……

究竟是福，还是祸呢？

◇ ◆ ◇