Claude Code 进入 Opus 4.7 时代后,最该换掉的协作方式

0 阅读9分钟

Hello,我是Niko。16年程序员老兵,专注分享 AI编程实战经验、宝藏工具资源、前沿技术动态。不玩套路,多讲干货。


这周最值得关注的事,不是 Opus 4.7 又涨了多少分,而是 Claude Code 的协作逻辑真的变了。

4 月 16 日,Anthropic 发布 Claude Opus 4.7。新东西一串:xhigh effort level 是新的默认档,比 high 更使劲一点;Extended Thinking 那种固定 thinking budget 被拿掉了,换成让模型自己判断要不要多想的 adaptive thinking;视觉输入分辨率拉到 2576 像素长边;tokenizer 更新后同样的输入会切出更多 token;task budgets public beta、/ultrareview 命令、面向 Max 用户开放的 auto mode,都同时上线。

让我停下来多看一眼的,不是这张发布页,是 Anthropic 员工 Boris 紧接着写的那篇最佳实践。他给 Opus 4.7 的建议很直接:别再把 Claude 当需要逐行盯着带的 pair programmer,切到 delegation。把任务边界、约束、验收标准一次讲清楚,然后让它自己推进,不是你打一行、它补一行。

发生了什么

Opus 4.7 的模型 ID 是 claude-opus-4-7,定价沿用 Opus 4.6 的 5/Minput5/M input、25/M output,Claude 客户端、API、Bedrock、Vertex AI 和 Microsoft Foundry 同步上架。

几个面向开发者的明确改动:

  • 默认 effort 换挡。Claude Code 的默认思考档位从 high 升到 xhigh,介于 high 和 max 之间。Boris 的说法是,对大部分编程和 agentic 任务,xhigh 才是甜区。
  • Adaptive thinking。过去那种固定 thinking budget 的 Extended Thinking 被拿掉了,思考变成 optional,模型自己决定要不要多想。要它慢下来或者快起来,得靠提示词明确引导。
  • 视觉能力升级。视觉分辨率提到 2576 像素长边,约 3.75 MP,是上一代的三倍以上。XBOW 的视觉敏锐度测试从 54.5% 直接跳到 98.5%。
  • Tokenizer 更新。同一段输入会被切成更多 token,1.0 到 1.35 倍不等。配合 higher effort,输出 token 数也在涨。Token 账单需要重新估。
  • 外围功能。Task budgets 进 public beta,用来给长任务设预算;新增 /ultrareview 子命令;auto mode 扩展到 Max 用户;推出一个叫 Cyber Verification Program 的安全复核计划。
  • 基于文件系统的 memory。跨 session 的记忆机制跟上来,这是 Claude Code 配合 delegation 用法的底子。

Opus 4.7 信息图表生成需求.png 客户 benchmark 那一串数字也挺好看:Cursor 自测从 58% 拉到 70%,Rakuten 说复杂生产任务上跑完成率变成三倍,Notion 报工具调用错误掉到原来的三分之一,Databricks 的 OfficeQA Pro 错误再降 21%,Harvey 的 BigLaw Bench 在 high effort 下拿到 90.9%,Factory Droids 在任务成功率上多出 10 到 15 个百分点,Hex 发现 low-effort 的 4.7 已经接近 medium-effort 的 4.6。Anthropic 自己的 93 任务编程基准上,4.7 比 4.6 高 13%。

数字之外,定性描述里有几个词反复出现:catches its own logical faults during the planning phase、pushes back during technical discussions、resists dissonant-data traps、loop resistance、graceful error recovery。翻译成人话就是:它会在动手前先揪自己的毛病、会在你说错的时候顶嘴、会在数据打架时不慌乱。

为什么重要

协作姿势要从 pair 切到 delegation

Boris 那篇博文的原话大意是:把 Claude 当成一个你要委派任务的靠谱工程师,而不是一个需要你逐行指挥的结对对象。这句话我反复看了好几遍,不是因为它新,而是因为它把很多人的老习惯点破了。

过去一年多,大家用 Claude Code 的方式其实很像两个人一起打字。你开一个会话,一边看它写一边插嘴改方向。出一行问一下,改一块调一下。这种方式在 4.5、4.6 时代是合理的。那会儿模型想得不够长,你不盯着就会跑偏,多插嘴它反而更稳。

到了 4.7,情况不一样了。默认 effort 被拉到 xhigh,adaptive thinking 让它自己决定哪里要多想。官方描述里那些"会在 planning 阶段揪出自己逻辑错误"、"会在讨论时顶你"的话,合起来只说明一件事:模型前期自我修正的能力上来了。你在它想清楚之前不停打断,反倒是在破坏推理链。

Opus 4.6与4.7行为对比信息图生成.png

Boris 给的建议非常具体:

  • Specify the task up front。把意图、约束、验收标准、涉及的文件位置,一次写清楚。别写"帮我看看这个 bug",要写"这个函数在 X 场景下返回 null,期望返回空数组,相关文件是 A 和 B,改完别动 C 的签名"。
  • Reduce required user interactions。能合并的提问合并,别让它每做一步就停下来等你。
  • Use auto mode。Max 用户可以 Shift+Tab 切进 auto mode。我自己试的体感是,auto mode 下它会把一串相关的编辑、搜索、测试连在一起做,不再每步请示。
  • Set up notifications。让 Claude 自己帮你写 hook-based 通知,任务跑完 ding 一下。这本质是在承认:你不需要全程盯着它。

effort 档位不是越高越好

新加的 xhigh 是 Claude Code 的默认,这不等于越高越好。Boris 给出了一张非常实用的映射:

  • medium / low:成本和延迟敏感的场景。即便低档位,也已经超过上一代 Opus 4.6 的同档位。
  • high:在智能和成本之间找平衡的常规场景。
  • xhigh:默认推荐,大部分编程和 agentic 任务的甜区。
  • max:只给那些真正困难的问题。Boris 专门提醒,max 档容易 overthinking,很多时候反而不如 xhigh 干脆。

这张档位表其实是在告诉你一件事:越贵的档不是越好用,边际收益到某一档就开始反噬。给它足够多的时间想,和让它想到瘫痪,中间只差一档。

Adaptive thinking 要你用提示词主动调

过去用 Extended Thinking,你能直接设一个 thinking budget。现在没这个旋钮了,得靠语言引导。Boris 给的模板很直白:

  • 想要更多思考:"Think carefully and step-by-step before responding; this problem is harder than it looks."
  • 想要更少思考:"Prioritize responding quickly rather than thinking deeply. When in doubt, respond directly."

这种从"旋钮"到"提示词"的切换,对写 prompt 的人是好事。你不必预判任务需要多少思考预算,模型自己评估,你只在偏离时纠偏。对不愿意写这些引导语的人,默认的 adaptive 行为也就够用了。

模型行为变了,你的旧 prompt 可能反噬

Opus 4.7 的行为和 4.6 不完全一样,Boris 列了几条变化,每条都值得拿来扫一遍你的工作流:

  • Response length 根据任务复杂度校准。以前 Claude 会默认给一大堆解释、注释、总结。4.7 不再默认啰嗦,简单任务直接给答案。你如果写过"请简洁回答"的指令,可以删掉一部分。
  • 正面示例优于"Don't do this"。Boris 的原话是,给 Claude 演示该做什么,比列一堆禁令更有效。这跟 4.6 时代的经验一致,但在 4.7 上更明显。
  • 工具调用更少,推理更多。这条挺关键。老版模型会倾向于多次调用工具来补齐信息,4.7 会先想清楚再动手。结果就是工具日志变短,但每一步更准。
  • 默认派生更少 subagent。以前动不动就分出一堆 subagent 并行干活的模式变克制了。如果你一直靠"叫它分几个 agent 跑"来加速,这条要特别留意。

这一整套变化的共同逻辑

把上面几条并排放:默认档位更高、思考变自适应、响应长度校准、工具调用克制、subagent 克制、推荐 delegation 式用法、推荐 auto mode、推荐 hook 通知。

共同逻辑就一句:模型变得更能先想清楚再动手,所以协作方式要从"你带着它写"退一步,变成"你把边界画清楚之后看结果"。

我的判断

我觉得这次升级里,真正会拉开差距的不是 benchmark,而是用法。

Benchmark 数字不缺。SWE-bench、Terminal-Bench 这种分数每代都在涨,看多了其实会麻。但 Boris 那篇博文讲的协作方式转变,很多老用户不会主动意识到。因为过去一年养成的习惯,实在太顺手了。

我自己这两天刻意改了几件事:

  • 任务开头写得更长。以前两三句话开工,现在会把约束、验收标准、边界文件全写上。效果很明显,它不再反复问我"要不要加 X",而是自己判断 X 该不该加。
  • 中途少插嘴。以前 20 秒等不及就打断它重新说一遍。现在我会看着它跑完整轮 tool use 再看结果。错的地方再整体调一次,不是小步纠偏。错误率反而下去了。
  • auto mode 值得打开一次。我试了之后的感觉是,它更像一个有工作节奏的同事,做完一组相关工作主动回来交付。用旧的"每步请示"方式,你是小步快走;auto mode 下你是每几分钟接一次结果。
  • prompt 里主动写 effort 意图。简单任务我会加一句"Prioritize responding quickly",难任务我会加"think step by step before responding"。比盲目期待默认档位更可控。

我看衰的一点是 Token 账单。Tokenizer 更新加上 higher effort 档位,实际 token 消耗会明显增加,特别是 xhigh 成为默认之后。如果你在用 Claude Code 跑大型项目,这个月账单八成会难看。Boris 写得轻描淡写,但这是每个团队都要提前拉预警的事情。

有一件事我存疑。Anthropic 反复说让模型"自己决定要不要思考"是更好的设计。但对要控制成本和延迟的线上系统,"自己决定"意味着你得接受方差更大的响应时间。固定 thinking budget 被拿掉这件事,短期内对生产系统不是好消息,大概率需要团队在 prompt 层重新建自己的 effort 策略。

顺便提一下

  • /ultrareview 值得玩一下。Opus 4.7 随着 Claude Code 端带来的新子命令,定位是做更严的代码审查。搭配 xhigh 默认,实测比 /review 更较真,会指出一些之前版本放过去的坏味道。
  • Cyber Verification Program 是个信号。Anthropic 给 Opus 4.7 配了一个对网络安全能力的外部复核机制,延续了 Mythos Preview 那波"能力边界设卡"的思路。不是新动作,但方向稳定,值得盯。
  • Task budgets public beta。配合 adaptive thinking 用,用来硬性限制长任务的 token 开销。对长 agentic 任务比较有价值。

一句话总结

如果你只记住一件事:Opus 4.7 的重点不是新参数,是 Boris 在博文里说的那句。把 Claude 当一个能被委派的工程师,不要再当结对程序员来指挥。老习惯得换一下。


Niko-白色版.png

参考资料: