Claude Code 进入 Opus 4.7 时代后，最该换掉的协作方式Opus 4.7 这次最值得关注的，不只是 x

Hello，我是Niko。16年程序员老兵，专注分享 AI编程实战经验、宝藏工具资源、前沿技术动态。不玩套路，多讲干货。

这周最值得关注的事，不是 Opus 4.7 又涨了多少分，而是 Claude Code 的协作逻辑真的变了。

4 月 16 日，Anthropic 发布 Claude Opus 4.7。新东西一串：xhigh effort level 是新的默认档，比 high 更使劲一点；Extended Thinking 那种固定 thinking budget 被拿掉了，换成让模型自己判断要不要多想的 adaptive thinking；视觉输入分辨率拉到 2576 像素长边；tokenizer 更新后同样的输入会切出更多 token；task budgets public beta、/ultrareview 命令、面向 Max 用户开放的 auto mode，都同时上线。

让我停下来多看一眼的，不是这张发布页，是 Anthropic 员工 Boris 紧接着写的那篇最佳实践。他给 Opus 4.7 的建议很直接：别再把 Claude 当需要逐行盯着带的 pair programmer，切到 delegation。把任务边界、约束、验收标准一次讲清楚，然后让它自己推进，不是你打一行、它补一行。

发生了什么

Opus 4.7 的模型 ID 是 claude-opus-4-7，定价沿用 Opus 4.6 的 $5/M input、$ 25/M output，Claude 客户端、API、Bedrock、Vertex AI 和 Microsoft Foundry 同步上架。

几个面向开发者的明确改动：

默认 effort 换挡。Claude Code 的默认思考档位从 high 升到 xhigh，介于 high 和 max 之间。Boris 的说法是，对大部分编程和 agentic 任务，xhigh 才是甜区。
Adaptive thinking。过去那种固定 thinking budget 的 Extended Thinking 被拿掉了，思考变成 optional，模型自己决定要不要多想。要它慢下来或者快起来，得靠提示词明确引导。
视觉能力升级。视觉分辨率提到 2576 像素长边，约 3.75 MP，是上一代的三倍以上。XBOW 的视觉敏锐度测试从 54.5% 直接跳到 98.5%。
Tokenizer 更新。同一段输入会被切成更多 token，1.0 到 1.35 倍不等。配合 higher effort，输出 token 数也在涨。Token 账单需要重新估。
外围功能。Task budgets 进 public beta，用来给长任务设预算；新增 /ultrareview 子命令；auto mode 扩展到 Max 用户；推出一个叫 Cyber Verification Program 的安全复核计划。
基于文件系统的 memory。跨 session 的记忆机制跟上来，这是 Claude Code 配合 delegation 用法的底子。

Opus 4.7 信息图表生成需求.png 客户 benchmark 那一串数字也挺好看：Cursor 自测从 58% 拉到 70%，Rakuten 说复杂生产任务上跑完成率变成三倍，Notion 报工具调用错误掉到原来的三分之一，Databricks 的 OfficeQA Pro 错误再降 21%，Harvey 的 BigLaw Bench 在 high effort 下拿到 90.9%，Factory Droids 在任务成功率上多出 10 到 15 个百分点，Hex 发现 low-effort 的 4.7 已经接近 medium-effort 的 4.6。Anthropic 自己的 93 任务编程基准上，4.7 比 4.6 高 13%。

数字之外，定性描述里有几个词反复出现：catches its own logical faults during the planning phase、pushes back during technical discussions、resists dissonant-data traps、loop resistance、graceful error recovery。翻译成人话就是：它会在动手前先揪自己的毛病、会在你说错的时候顶嘴、会在数据打架时不慌乱。

为什么重要

协作姿势要从 pair 切到 delegation

Boris 那篇博文的原话大意是：把 Claude 当成一个你要委派任务的靠谱工程师，而不是一个需要你逐行指挥的结对对象。这句话我反复看了好几遍，不是因为它新，而是因为它把很多人的老习惯点破了。

过去一年多，大家用 Claude Code 的方式其实很像两个人一起打字。你开一个会话，一边看它写一边插嘴改方向。出一行问一下，改一块调一下。这种方式在 4.5、4.6 时代是合理的。那会儿模型想得不够长，你不盯着就会跑偏，多插嘴它反而更稳。

到了 4.7，情况不一样了。默认 effort 被拉到 xhigh，adaptive thinking 让它自己决定哪里要多想。官方描述里那些"会在 planning 阶段揪出自己逻辑错误"、"会在讨论时顶你"的话，合起来只说明一件事：模型前期自我修正的能力上来了。你在它想清楚之前不停打断，反倒是在破坏推理链。

Opus 4.6与4.7行为对比信息图生成.png

Boris 给的建议非常具体：

Specify the task up front。把意图、约束、验收标准、涉及的文件位置，一次写清楚。别写"帮我看看这个 bug"，要写"这个函数在 X 场景下返回 null，期望返回空数组，相关文件是 A 和 B，改完别动 C 的签名"。
Reduce required user interactions。能合并的提问合并，别让它每做一步就停下来等你。
Use auto mode。Max 用户可以 Shift+Tab 切进 auto mode。我自己试的体感是，auto mode 下它会把一串相关的编辑、搜索、测试连在一起做，不再每步请示。
Set up notifications。让 Claude 自己帮你写 hook-based 通知，任务跑完 ding 一下。这本质是在承认：你不需要全程盯着它。

effort 档位不是越高越好

新加的 xhigh 是 Claude Code 的默认，这不等于越高越好。Boris 给出了一张非常实用的映射：

medium / low：成本和延迟敏感的场景。即便低档位，也已经超过上一代 Opus 4.6 的同档位。
high：在智能和成本之间找平衡的常规场景。
xhigh：默认推荐，大部分编程和 agentic 任务的甜区。
max：只给那些真正困难的问题。Boris 专门提醒，max 档容易 overthinking，很多时候反而不如 xhigh 干脆。

这张档位表其实是在告诉你一件事：越贵的档不是越好用，边际收益到某一档就开始反噬。给它足够多的时间想，和让它想到瘫痪，中间只差一档。

Adaptive thinking 要你用提示词主动调

过去用 Extended Thinking，你能直接设一个 thinking budget。现在没这个旋钮了，得靠语言引导。Boris 给的模板很直白：

想要更多思考："Think carefully and step-by-step before responding; this problem is harder than it looks."
想要更少思考："Prioritize responding quickly rather than thinking deeply. When in doubt, respond directly."

这种从"旋钮"到"提示词"的切换，对写 prompt 的人是好事。你不必预判任务需要多少思考预算，模型自己评估，你只在偏离时纠偏。对不愿意写这些引导语的人，默认的 adaptive 行为也就够用了。

模型行为变了，你的旧 prompt 可能反噬

Opus 4.7 的行为和 4.6 不完全一样，Boris 列了几条变化，每条都值得拿来扫一遍你的工作流：

Response length 根据任务复杂度校准。以前 Claude 会默认给一大堆解释、注释、总结。4.7 不再默认啰嗦，简单任务直接给答案。你如果写过"请简洁回答"的指令，可以删掉一部分。
正面示例优于"Don't do this"。Boris 的原话是，给 Claude 演示该做什么，比列一堆禁令更有效。这跟 4.6 时代的经验一致，但在 4.7 上更明显。
工具调用更少，推理更多。这条挺关键。老版模型会倾向于多次调用工具来补齐信息，4.7 会先想清楚再动手。结果就是工具日志变短，但每一步更准。
默认派生更少 subagent。以前动不动就分出一堆 subagent 并行干活的模式变克制了。如果你一直靠"叫它分几个 agent 跑"来加速，这条要特别留意。

这一整套变化的共同逻辑

把上面几条并排放：默认档位更高、思考变自适应、响应长度校准、工具调用克制、subagent 克制、推荐 delegation 式用法、推荐 auto mode、推荐 hook 通知。

共同逻辑就一句：模型变得更能先想清楚再动手，所以协作方式要从"你带着它写"退一步，变成"你把边界画清楚之后看结果"。

我的判断

我觉得这次升级里，真正会拉开差距的不是 benchmark，而是用法。

Benchmark 数字不缺。SWE-bench、Terminal-Bench 这种分数每代都在涨，看多了其实会麻。但 Boris 那篇博文讲的协作方式转变，很多老用户不会主动意识到。因为过去一年养成的习惯，实在太顺手了。

我自己这两天刻意改了几件事：

任务开头写得更长。以前两三句话开工，现在会把约束、验收标准、边界文件全写上。效果很明显，它不再反复问我"要不要加 X"，而是自己判断 X 该不该加。
中途少插嘴。以前 20 秒等不及就打断它重新说一遍。现在我会看着它跑完整轮 tool use 再看结果。错的地方再整体调一次，不是小步纠偏。错误率反而下去了。
auto mode 值得打开一次。我试了之后的感觉是，它更像一个有工作节奏的同事，做完一组相关工作主动回来交付。用旧的"每步请示"方式，你是小步快走；auto mode 下你是每几分钟接一次结果。
prompt 里主动写 effort 意图。简单任务我会加一句"Prioritize responding quickly"，难任务我会加"think step by step before responding"。比盲目期待默认档位更可控。

我看衰的一点是 Token 账单。Tokenizer 更新加上 higher effort 档位，实际 token 消耗会明显增加，特别是 xhigh 成为默认之后。如果你在用 Claude Code 跑大型项目，这个月账单八成会难看。Boris 写得轻描淡写，但这是每个团队都要提前拉预警的事情。

有一件事我存疑。Anthropic 反复说让模型"自己决定要不要思考"是更好的设计。但对要控制成本和延迟的线上系统，"自己决定"意味着你得接受方差更大的响应时间。固定 thinking budget 被拿掉这件事，短期内对生产系统不是好消息，大概率需要团队在 prompt 层重新建自己的 effort 策略。

顺便提一下

/ultrareview 值得玩一下。Opus 4.7 随着 Claude Code 端带来的新子命令，定位是做更严的代码审查。搭配 xhigh 默认，实测比 /review 更较真，会指出一些之前版本放过去的坏味道。
Cyber Verification Program 是个信号。Anthropic 给 Opus 4.7 配了一个对网络安全能力的外部复核机制，延续了 Mythos Preview 那波"能力边界设卡"的思路。不是新动作，但方向稳定，值得盯。
Task budgets public beta。配合 adaptive thinking 用，用来硬性限制长任务的 token 开销。对长 agentic 任务比较有价值。

一句话总结

如果你只记住一件事：Opus 4.7 的重点不是新参数，是 Boris 在博文里说的那句。把 Claude 当一个能被委派的工程师，不要再当结对程序员来指挥。老习惯得换一下。

Niko-白色版.png

参考资料：

Introducing Claude Opus 4.7

Best practices for using Claude Opus 4.7 with Claude Code