Claude「think」工具逻辑闭环：链中途那张「草稿纸」，和 Extended thinking 谁先谁后？

很多人把 Extended thinking 和「think 工具」当成「换皮」——这是我读材料时最常看到的盲区。 前者更像是 开口输出前，给模型一块长考空间；后者是 已经在走工具链了，中间要等一铲子 tool 结果回来，再决定下一步——这时插一个无副作用的 think，等于多一张链中途草稿纸。两件事碰的时机不一样，别混成一个开关。[1]

更扎心的是官方后来改口：2025-12-15 原文置顶写明，Extended thinking 迭代之后，多数场景更建议优先用 Extended thinking，而不是再单独接一套专用 think 工具——集成和性能通常更省事。实现以 Extended thinking 产品文档为准；「可见推理」脉络见 Visible extended thinking。[1][2][3]

下面我仍按 2025-03-20 那篇把 think 讲透：它解决什么问题、τ-Bench / SWE-bench 里数字怎么读、什么时候该试、什么时候别加戏。你要做新立项，我先把话撂这儿：先读置顶 + [2]，再决定 fork 哪条路径；旧实现要做迁移或对照实验，这篇仍有档案价值。[1]

先看主线

主线：长链调用缺什么 → think 机制是啥、和 Extended thinking 怎么分 → τ-Bench/ SWE-bench 我读到的结论 → 边界与落地 → 官方改口后我怎么选型。
跳读位：### 深度解析、### 材料勘读；表格数字以 原文页面 为准。

一、背景：工具一多，最怕「动作很忙、中间没得整理」

Agent 串行调工具时，常见翻车不是「不会调」，而是：前一步 tool 吐了一大坨，你没地方把规则、缺口、合规检查写清楚，下一步就已经出手。think 的直觉就是：在链里注册一个不改变环境、只追加 thought 日志的工具，让模型先写下来再动。[1]

类比只是我用来降低记忆成本：Extended thinking 像进考场前在走廊里默提纲；think 像做到大题第二问时，在草稿纸边角先算两步——正式证明（最终回答）还得对上卷面要求。[1]

二、口径迭代：从「单独 think 工具」到「多数场景先看 Extended thinking」

2025-03：原文推广显式 think 工具，并给 τ-Bench 里的规格示例与实验。
2025-12：置顶更新——多数情况更推荐 Extended thinking（「类似收益、集成与性能更好」类叙述，以原文为准）。[1]

我的理解：这是产品能力上收的信号，不是否认「中途要想清楚」。老工程里已经接了 think、或你要审计中间推理，仍可对齐原文做；新栈优先跟 [2] 走，少维护一条平行概念。[1][2]

三、机制：`think` 是什么，和 Extended thinking 怎么分桌

文中示例工具定义来自 𝜏-Bench 的标准格式：name 为 think，thought 字符串写入日志，不取新信息、不改库（定义措辞以原文代码块为准）。[1][4]

3.1 和 Extended thinking 的对照

对照点	Extended thinking	`think` 工具
时机	更偏生成正式回复之前的规划与迭代	更偏已开始输出 / 走工具链之后，在步骤间停顿
信息焦点	相对完整的前置推理	更贴新拿到手的 tool 结果、下一步该不该改策略
官方的倾向（2025-12 置顶）	多数场景优先	长链、政策密、顺序错不起时原文仍讨论过收益；新项目先看 [2]

原文还划了粗粒度建议：例如 非顺序并行工具、简单指令跟从，Extended thinking 可能就够用；复杂工具、长链、政策细、顺序决策更曾是 think 的甜点区——但最终 Product 分叉以置顶 + 文档为准。[1][2]

3.2 τ-Bench 在测什么（我读 pass^k）

τ-Bench 模拟客服类场景：对话、跟政策、动数据库。主指标 pass^k 是 k 次独立尝试都成功 的概率（再对任务平均）——强调的是稳，而不是「碰运气撞中一次」。[1]

这与不少业务 KPI「用户多试几遍总能成」未必同构；对外汇报前我会先问清：k 对应几次重试、和产品上的 SLA 对不对齐。

四、τ-Bench：航空「难域」、零售「易域」、以及我偷的三条规律

政策难度可对照 GitHub 上 airline wiki 与 retail wiki——航空一般更绕。[1][5]

4.1 航空域（节选 k=1）

以下取原文表格 pass^1 一列（比例；精确到三位以页面为准）：[1]

Configuration	k=1（节选）
Think + Prompt	0.584
Think only	0.404
Extended thinking	0.412
Baseline	0.332

正文另有叙述句给过 0.570 / 0.370 量级的对比——以你打开的页面表格与正文哪段更新为准；我在这里不替你拍板合并口径。[1]

4.2 零售域（节选 k=1）

Configuration	k=1（节选）
Think + no prompt	0.812
Extended thinking	0.770
Baseline	0.783

原文解读倾向：零售政策相对好走，「给一块想的空间」提升就显；航空则更吃示例化 prompt（清单、决策树、核对项怎么写进 think）。[1]

4.3 我读原文偷的三条（implementation 向）

难域：prompt 显著发力——光挂工具不如教模型 在 think 里写什么（规则清单、信息齐不齐、动作合不合规、 tool 输出怎么复核）。
易域：有空间可能就够——未必堆长模板。
pass^k 高 k 仍维持差距——原文用来支撑「更稳地啃边角案例」叙事；别自动等价成你们线上转化率。[1]

五、SWE-bench：另一条「代码里也想一想」的旁证

SWE-bench 设定里加类似的 think，文中有 0.623 一类 SOTA 叙述；对照实验里估算独立贡献约 +1.6% ，并报告 Welch 检验（样本量 n=30 有 think vs n=144 无 think—— 括号里数字以原文为准）。[1]

我拿来当辅助证据：代码修复链里「发现 bug → brainstorm 修法 → 看测试」同样吃得下中途头脑风暴；但别从客服 τ-Bench 直接外推到你们仓库。 [1]

六、边界：什么时候值得试，什么时候我会劝你别加戏

更值得折腾（原文归纳 + 我的转述） ：[1]

要细嚼慢咽前序 tool 输出，可能要改策略或回溯；
政策 / 合规步骤碎，需要逐条对照；
顺序决策：后一步吃前一步，错一次很疼。

更可能没必要：[1]

调用非顺序、偏并行一次性结束；
任务简单、默认行为就够用；
Extended thinking 已覆盖且 token/延迟账更漂亮。

代价：提示更长、输出 token 更多；双开两条「思考通道」前，我会先算清钱和时延。[1][2]

七、落地：原文 best practices 我压成三张条

战略级 prompt + 领域示例：何时调用 think、think 里要过哪些检查项（规则适用、信息够不够、动作是否合规、 tool 结果是否对齐）——航空域大段模板原文已给。[1]
又长又复杂的 think 指引：放进 system prompt 往往比全塞进工具 description 更顺。[1]
试点路径：先挑最难、最容易违规的用例，再放大范围。[1]

和工具形态本身怎么设计，我仍会回到同系列 Writing effective tools for agents：think 解决链上推理，工具仍要高信号。[6]

深度解析：pass^k 和业务「一次成功」

事实：文内强调 pass^k。[1]

原文观点：一致性 / 可靠性。[1]

我的判断：若产品只关心「多试几次总有一次过」，读 pass^k 时别自我感动——先对齐 k 与重试策略。

材料勘读：置顶更新到底约束了什么

事实：2025-12-15 置顶——多数场景更推荐 Extended thinking。[1]

原文观点：think 在长链、政策、顺序场景有过 demonstrated 增益。[1]

我的解读：新集成以 [2] 为分叉主干；think 文是 方法论档案 + τ-Bench 对照语言，不是「2026 仍要你照抄旧模板」的尚方宝剑。

结论与讨论

技术坐标

think 把链式工具调用里的显式反思做成无副作用工具调用——和「观察→行动→再观察」一类循环同属可观测推理流派；Extended thinking 则把一部分需求收进更一体化的能力。我读下来：两件都是给模型腾思考空间，接口形态不同、官方维护重心已明显倾斜。[1][2]

我会追问的三件事

thought 日志进不进留存？谁有权看？
双开会不会纯烧 token？
τ-Bench 政策难度和你们业务域是不是一回事？

独立判断（事实 / 原文观点 / 我的解读）

类型	内容
事实	原文 URL；τ-Bench、SWE-bench 数字与统计以文内为准；置顶与 [2] 为产品分叉依据。[1][2]
原文观点	`think` 在特定场景有显著提升叙事；多数场景推荐 Extended thinking。[1]
我的解读	新立项先 [2] ；旧文用于迁移、对照、写清边界；日志与合规单独立项。[1][2]
批判性提醒	Extended thinking + 显式 `think`双开前做 token/延迟预算；思考链日志外泄≈暴露中间推理，脱敏与留痕要和法务一起定。[1][2]

收束一句：think 用很轻的实现买来长链上的可检查停顿；但官方已说 多数新路优先 Extended thinking——我以最新文档为准绳，旧文做地图而不做教条。[1][2]

参考文献与延伸阅读

[1] The "think" tool — Anthropic Engineering
[2] Extended thinking
[3] Visible extended thinking — 研究侧背景
[4] 𝜏-Bench — 基准与工具规格脉络
[5] tau-bench · airline/retail policy（airline wiki）
[6] Writing effective tools for agents