Claude Opus 4.7 实测:Office 能力把 GPT-5.4 甩开 30 个百分点

0 阅读2分钟

昨天预告的 Claude Opus 4.7,今天凌晨正式发布。作为 Claude Code 系列的连载续篇,第一时间翻了实测数据和官方文档,有几个点值得关注。

46dec17fa2103.png

核心升级:编程更强、视觉更准、记性更好

编程能力:可以在更长的周期里自主跑任务,交付前会自己验证输出。简单说:之前要一直盯着,现在可以放心交给它跑。

视觉能力:支持长边 2576 像素图片,是之前 Claude 的 3 倍以上,截图里每个按钮、每行小字都能看清。

跨会话记忆:复杂项目不需要每次新会话都重新喂上下文,Claude 可以自己记住关键信息。

关键数据

长程任务(Vending-Bench 2): Opus 4.7 账户余额 10,937Opus4.610,937,Opus 4.6 为 8,018,提升约 36%。

超长上下文 BFS(100万 token): Opus 4.7:58.6%,Opus 4.6:41.2%,提升了 17 个百分点。

Office 文档处理(OfficeQA Pro):

模型得分
Opus 4.780.6%
Opus 4.657.1%
GPT-5.451.1%
Gemini 3.1 Pro42.9%

Gemini 3.1 Pro 和 Opus 4.7 差了接近一倍,这个差距很夸张。

一个需要留意的坑

官方文档里有句话容易被忽略:指令遵循变"字面化"了——以前 Opus 4.6 会帮你"脑补"模糊指令,这次就老老实实按字面意思来了。

如果你有依赖这种行为的 prompt,升级后建议跑一遍核心流程,检查是否需要调整。

Claude Code 产品层更新

配合 Opus 4.7,Claude Code 也有几个新功能:

  • xhigh 努力级别(介于 high 和 max 之间)
  • /ultrareview 命令:自动 Code Review,Pro/Max 用户免费试用 3 次
  • auto mode 扩展到 Max 用户
  • task budgets 公测

接入方面:Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 四个平台同步开放。定价和 Opus 4.6 持平:输入 5/百万token,输出5/百万 token,输出 25/百万 token。


首发于公众号**「赛博山海经」**,每周实测AI工具,不玩虚的。 免费AI工具导航👉 92yangyi.top/ai-tools