就在刚才,新一代的 Claude Opus 4.7 正式登场!
此版本的关键改进,与不久前亮相的 Routines 功能一脉相承:旨在让 AI 能够处理更耗时、更繁琐的任务,并且具备自我审视结果的能力,从而让你不必时刻监督。
至于价格,它和 4.6 版本保持一致,每百万 token 的输入与输出分别为 $5 和 $25。
01一个会自我审视答案的模型
Opus 4.7 新增了一项以往不甚显著的本领:在提交最终成果前,会先进行一轮自我校验。
一旦觉察到差错,它便在内部自行修正,然后再呈现答案。
这听着似乎不难,可若置于自动化执行的情境中,其重要性便凸显出来。过去,我们让模型连续执行数小时的工作,结果到头来才发觉某个环节出了纰漏。
如今,它不仅能自行发现问题,还能自我纠正。
你需要人工干预的环节,又少了一个。
某电商平台用 Opus 4.7 运行实际生产任务,问题解决率提高了三倍,代码品质据称「有了十个数量级以上的飞跃」。
对于多任务流程,新版本较 4.6 性能高出 14%,其工具调用的失败率减少了近三分之一,同时 token 的耗用也更少了。
不仅更可靠,还更经济。
02视觉能力的大幅跃升
这次视觉能力的增强,简直有点夸张。
Opus 4.7 现在能处理长边达 2576 像素的图片,总计约 375 万像素,分辨率是先前版本的三倍还多。
官方列举的应用场景,如生成UI原型、创建演示文稿、分析化学结构和工程图表等,均属于那种对细节要求极高、差之毫厘便谬以千里的任务。
接着是某科技公司提供的数据:在计算机视觉感知基准测试中,Opus 4.7 的得分高达 98.5%,而 Opus 4.6 仅为 54.5%。
从 54.5% 飙升至 98.5%……这可不是闹着玩的。
该公司的评价是:「彻底根治了我们的核心难题。」
这种飞跃,对于自动化任务而言意义非凡。
以往让 AI 识别截图、读取界面、解析图文混排文档时,失误率肉眼可见。这次分辨率的提升,为它可靠地处理视觉任务奠定了基石。
03一个愈发全能的编程专家
某代码编辑器在自家基准测试上的数据表明:Opus 4.7 得分 70%,而 4.6 版为 58%。
另一家知名笔记应用的反馈是:整体效能提高了 14%,工具调用错误率降低了约三分之一,并首次通过了「隐含需求」的测试,也就是那些未明说但理应领会的需求。
某代码审查工具的应用表明:在处理最复杂的 PR 时,召回率增长超过 10%,而精确度几乎未受影响。
而某数据平台则专注于文档推理,其错误率降低了 21%。
04新增 /ultrareview 指令
这次,Claude Code 还加入了一个 /ultrareview 命令,用以启动一轮深度的代码审查。
它会通读所有变更,找出一位严谨的审查者会关注的问题,涵盖了 bug 和设计层面的潜在风险。
你无需再开启新对话,或手动请求它进行检查。
仅需一条指令,它便能自行完成并生成一份报告。
Auto Mode 也已对 Max 用户开放了,使得更长周期的任务运行时不易被中断。结合前不久上线的 Routines,你完全可以在睡前配置好任务和触发条件,第二天一早坐收成果。
如此一来,让「AI 替你守夜班」这件事,正变得愈发自然。
05API 新增调节档位
对于开发者而言,本次更新增加了一个 xhigh 推理等级,介于 high 和 max 之间。
过去 high 与 max 之间的档位跨度较大,现在有了这个中间档,便能在推理深度与响应速度间做出更精细的权衡。
此外,默认的 effort 等级也已从 high 提升至 xhigh,这意味着即便不做任何改动,模型本身也应该比过去更严谨了。
另外还有 Task Budgets(测试版)功能,它能让模型在执行长任务时自主管理 token 消耗,判断何处应投入更多资源,何处可以节省。该功能尚处测试,但方向无疑是正确的。
06迁移注意事项
本次更新了分词器(tokenizer),对于同样的输入,产生的 token 数量会比以往多出约 0% 到 35% 不等。
这样做的好处是模型能获取更全面的信息,从而输出更可靠的结果。代价则是成本可能会有所增加。
如果你的工作流对 token 计费非常敏感,切换版本时需要多加留意,官方提供了相应的迁移指南。
07留给我们的窗口期,正在收窄
今天,一个能执行更长任务、懂得自我检查、并且视觉能力显著增强的模型问世了。
几天前,Routines 功能上线,AI 开始主动巡查,即便你不召唤,它也会自己留意。
再算上 1M 上下文、子智能体、/ultrareview 指令……
这些更新若单独审视,都只是「一个微小的功能」。
然而将它们拼凑起来,我发觉一件事正在悄然发生:AI 对人类干预的依赖,正在一点点地减少。
当你凌晨两点酣睡时,它在帮你审查代码提交。
当你周末去远足时,它在帮你同步团队文档。
当你外出用餐时,它在帮你运行测试用例。
我有时不禁会想,这……
究竟是福,还是祸呢?
◇ ◆ ◇