Claude「think」工具逻辑闭环:链中途那张「草稿纸」,和 Extended thinking 谁先谁后?

0 阅读8分钟

很多人把 Extended thinking 和「think 工具」当成「换皮」——这是我读材料时最常看到的盲区。  前者更像是 开口输出前,给模型一块长考空间;后者是 已经在走工具链了,中间要等一铲子 tool 结果回来,再决定下一步——这时插一个无副作用的 think,等于多一张链中途草稿纸。两件事碰的时机不一样,别混成一个开关。[1]

更扎心的是官方后来改口:2025-12-15 原文置顶写明,Extended thinking 迭代之后,多数场景更建议优先用 Extended thinking,而不是再单独接一套专用 think 工具——集成和性能通常更省事。实现以 Extended thinking 产品文档 为准;「可见推理」脉络见 Visible extended thinking。[1][2][3]

下面我仍按 2025-03-20 那篇把 think 讲透:它解决什么问题、τ-Bench / SWE-bench 里数字怎么读、什么时候该试、什么时候别加戏。你要做新立项,我先把话撂这儿:先读置顶 + [2],再决定 fork 哪条路径;旧实现要做迁移或对照实验,这篇仍有档案价值。[1]

先看主线

  • 主线:长链调用缺什么 → think 机制是啥、和 Extended thinking 怎么分 → τ-Bench/ SWE-bench 我读到的结论 → 边界与落地 → 官方改口后我怎么选型。
  • 跳读位### 深度解析### 材料勘读;表格数字以 原文页面 为准。

一、背景:工具一多,最怕「动作很忙、中间没得整理」

Agent 串行调工具时,常见翻车不是「不会调」,而是:前一步 tool 吐了一大坨,你没地方把规则、缺口、合规检查写清楚,下一步就已经出手。think 的直觉就是:在链里注册一个不改变环境、只追加 thought 日志的工具,让模型先写下来再动。[1]

类比只是我用来降低记忆成本:Extended thinking 像进考场前在走廊里默提纲;think 像做到大题第二问时,在草稿纸边角先算两步——正式证明(最终回答)还得对上卷面要求。[1]


二、口径迭代:从「单独 think 工具」到「多数场景先看 Extended thinking」

  • 2025-03:原文推广显式 think 工具,并给 τ-Bench 里的规格示例与实验。
  • 2025-12:置顶更新——多数情况更推荐 Extended thinking(「类似收益、集成与性能更好」类叙述,以原文为准)。[1]

我的理解:这是产品能力上收的信号,不是否认「中途要想清楚」。老工程里已经接了 think、或你要审计中间推理,仍可对齐原文做;新栈优先跟 [2] 走,少维护一条平行概念。[1][2]


三、机制:think 是什么,和 Extended thinking 怎么分桌

文中示例工具定义来自 𝜏-Bench 的标准格式:name 为 thinkthought 字符串写入日志,不取新信息、不改库(定义措辞以原文代码块为准)。[1][4]

3.1 和 Extended thinking 的对照

对照点Extended thinkingthink 工具
时机更偏生成正式回复之前的规划与迭代更偏已开始输出 / 走工具链之后,在步骤间停顿
信息焦点相对完整的前置推理更贴 新拿到手的 tool 结果、下一步该不该改策略
官方的倾向(2025-12 置顶)多数场景优先长链、政策密、顺序错不起时原文仍讨论过收益;新项目先看 [2]

原文还划了粗粒度建议:例如 非顺序并行工具简单指令跟从,Extended thinking 可能就够用;复杂工具、长链、政策细、顺序决策更曾是 think 的甜点区——但最终 Product 分叉以置顶 + 文档为准。[1][2]

3.2 τ-Bench 在测什么(我读 pass^k)

τ-Bench 模拟客服类场景:对话、跟政策、动数据库。主指标 pass^k 是 k 次独立尝试都成功 的概率(再对任务平均)——强调的是,而不是「碰运气撞中一次」。[1]

这与不少业务 KPI「用户多试几遍总能成」未必同构;对外汇报前我会先问清:k 对应几次重试、和产品上的 SLA 对不对齐


四、τ-Bench:航空「难域」、零售「易域」、以及我偷的三条规律

政策难度可对照 GitHub 上 airline wiki 与 retail wiki——航空一般更绕。[1][5]

4.1 航空域(节选 k=1)

以下取原文表格 pass^1 一列(比例;精确到三位以页面为准):[1]

Configurationk=1(节选)
Think + Prompt0.584
Think only0.404
Extended thinking0.412
Baseline0.332

正文另有叙述句给过 0.570 / 0.370 量级的对比——以你打开的页面表格与正文哪段更新为准;我在这里不替你拍板合并口径。[1]图片

4.2 零售域(节选 k=1)

Configurationk=1(节选)
Think + no prompt0.812
Extended thinking0.770
Baseline0.783

原文解读倾向:零售政策相对好走,「给一块想的空间」提升就显;航空则更吃示例化 prompt(清单、决策树、核对项怎么写进 think)。[1]图片

4.3 我读原文偷的三条(implementation 向)

  1. 难域:prompt 显著发力——光挂工具不如教模型 在 think 里写什么(规则清单、信息齐不齐、动作合不合规、 tool 输出怎么复核)。
  2. 易域:有空间可能就够——未必堆长模板。
  3. pass^k 高 k 仍维持差距——原文用来支撑「更稳地啃边角案例」叙事;别自动等价成你们线上转化率。[1]

五、SWE-bench:另一条「代码里也想一想」的旁证

SWE-bench 设定里加类似的 think,文中有 0.623 一类 SOTA 叙述;对照实验里估算独立贡献约 +1.6% ,并报告 Welch 检验(样本量 n=30 有 think vs n=144 无 think—— 括号里数字以原文为准)。[1]

我拿来当辅助证据:代码修复链里「发现 bug → brainstorm 修法 → 看测试」同样吃得下中途头脑风暴;但别从客服 τ-Bench 直接外推到你们仓库。 [1]


六、边界:什么时候值得试,什么时候我会劝你别加戏

更值得折腾(原文归纳 + 我的转述) :[1]

  1. 细嚼慢咽前序 tool 输出,可能要改策略或回溯
  2. 政策 / 合规步骤碎,需要逐条对照;
  3. 顺序决策:后一步吃前一步,错一次很疼

更可能没必要:[1]

  • 调用非顺序、偏并行一次性结束;
  • 任务简单、默认行为就够用;
  • Extended thinking 已覆盖且 token/延迟账更漂亮。

代价:提示更长、输出 token 更多;双开两条「思考通道」前,我会先算清钱和时延。[1][2]


七、落地:原文 best practices 我压成三张条

  1. 战略级 prompt + 领域示例:何时调用 think、think 里要过哪些检查项(规则适用、信息够不够、动作是否合规、 tool 结果是否对齐)——航空域大段模板原文已给。[1]
  2. 又长又复杂的 think 指引:放进 system prompt 往往比全塞进工具 description 更顺。[1]
  3. 试点路径:先挑最难、最容易违规的用例,再放大范围。[1]

和工具形态本身怎么设计,我仍会回到同系列 Writing effective tools for agentsthink 解决链上推理工具仍要高信号。[6]

深度解析:pass^k 和业务「一次成功」

事实:文内强调 pass^k。[1]

原文观点:一致性 / 可靠性。[1]

我的判断:若产品只关心「多试几次总有一次过」,读 pass^k 时别自我感动——先对齐 k 与重试策略


材料勘读:置顶更新到底约束了什么

事实:2025-12-15 置顶——多数场景更推荐 Extended thinking。[1]

原文观点think 在长链、政策、顺序场景有过 demonstrated 增益。[1]

我的解读新集成以 [2] 为分叉主干think 文是 方法论档案 + τ-Bench 对照语言,不是「2026 仍要你照抄旧模板」的尚方宝剑。


结论与讨论

技术坐标

think 把链式工具调用里的显式反思做成无副作用工具调用——和「观察→行动→再观察」一类循环同属可观测推理流派;Extended thinking 则把一部分需求收进更一体化的能力。我读下来:两件都是给模型腾思考空间接口形态不同、官方维护重心已明显倾斜。[1][2]

我会追问的三件事

  1. thought 日志进不进留存?谁有权看?
  2. 双开会不会纯烧 token?
  3. τ-Bench 政策难度你们业务域是不是一回事?

独立判断(事实 / 原文观点 / 我的解读)

类型内容
事实原文 URL;τ-Bench、SWE-bench 数字与统计以文内为准;置顶与 [2] 为产品分叉依据。[1][2]
原文观点think 在特定场景有显著提升叙事;多数场景推荐 Extended thinking。[1]
我的解读新立项先 [2] ;旧文用于迁移、对照、写清边界;日志与合规单独立项。[1][2]
批判性提醒Extended thinking + 显式 think双开前做 token/延迟预算;思考链日志外泄≈暴露中间推理,脱敏与留痕要和法务一起定。[1][2]

收束一句think 用很轻的实现买来长链上的可检查停顿;但官方已说 多数新路优先 Extended thinking——我以最新文档为准绳,旧文做地图而不做教条。[1][2]


参考文献与延伸阅读

  • [1] The "think" tool — Anthropic Engineering
  • [2] Extended thinking
  • [3] Visible extended thinking — 研究侧背景
  • [4] 𝜏-Bench — 基准与工具规格脉络
  • [5] tau-bench · airline/retail policy(airline wiki)
  • [6] Writing effective tools for agents