很多人把 Extended thinking 和「think 工具」当成「换皮」——这是我读材料时最常看到的盲区。 前者更像是 开口输出前,给模型一块长考空间;后者是 已经在走工具链了,中间要等一铲子 tool 结果回来,再决定下一步——这时插一个无副作用的 think,等于多一张链中途草稿纸。两件事碰的时机不一样,别混成一个开关。[1]
更扎心的是官方后来改口:2025-12-15 原文置顶写明,Extended thinking 迭代之后,多数场景更建议优先用 Extended thinking,而不是再单独接一套专用 think 工具——集成和性能通常更省事。实现以 Extended thinking 产品文档 为准;「可见推理」脉络见 Visible extended thinking。[1][2][3]
下面我仍按 2025-03-20 那篇把 think 讲透:它解决什么问题、τ-Bench / SWE-bench 里数字怎么读、什么时候该试、什么时候别加戏。你要做新立项,我先把话撂这儿:先读置顶 + [2],再决定 fork 哪条路径;旧实现要做迁移或对照实验,这篇仍有档案价值。[1]
先看主线
- 主线:长链调用缺什么 →
think机制是啥、和 Extended thinking 怎么分 → τ-Bench/ SWE-bench 我读到的结论 → 边界与落地 → 官方改口后我怎么选型。 - 跳读位:
### 深度解析、### 材料勘读;表格数字以 原文页面 为准。
一、背景:工具一多,最怕「动作很忙、中间没得整理」
Agent 串行调工具时,常见翻车不是「不会调」,而是:前一步 tool 吐了一大坨,你没地方把规则、缺口、合规检查写清楚,下一步就已经出手。think 的直觉就是:在链里注册一个不改变环境、只追加 thought 日志的工具,让模型先写下来再动。[1]
类比只是我用来降低记忆成本:Extended thinking 像进考场前在走廊里默提纲;think 像做到大题第二问时,在草稿纸边角先算两步——正式证明(最终回答)还得对上卷面要求。[1]
二、口径迭代:从「单独 think 工具」到「多数场景先看 Extended thinking」
- 2025-03:原文推广显式
think工具,并给 τ-Bench 里的规格示例与实验。 - 2025-12:置顶更新——多数情况更推荐 Extended thinking(「类似收益、集成与性能更好」类叙述,以原文为准)。[1]
我的理解:这是产品能力上收的信号,不是否认「中途要想清楚」。老工程里已经接了 think、或你要审计中间推理,仍可对齐原文做;新栈优先跟 [2] 走,少维护一条平行概念。[1][2]
三、机制:think 是什么,和 Extended thinking 怎么分桌
文中示例工具定义来自 𝜏-Bench 的标准格式:name 为 think,thought 字符串写入日志,不取新信息、不改库(定义措辞以原文代码块为准)。[1][4]
3.1 和 Extended thinking 的对照
| 对照点 | Extended thinking | think 工具 |
|---|---|---|
| 时机 | 更偏生成正式回复之前的规划与迭代 | 更偏已开始输出 / 走工具链之后,在步骤间停顿 |
| 信息焦点 | 相对完整的前置推理 | 更贴 新拿到手的 tool 结果、下一步该不该改策略 |
| 官方的倾向(2025-12 置顶) | 多数场景优先 | 长链、政策密、顺序错不起时原文仍讨论过收益;新项目先看 [2] |
原文还划了粗粒度建议:例如 非顺序并行工具、简单指令跟从,Extended thinking 可能就够用;复杂工具、长链、政策细、顺序决策更曾是 think 的甜点区——但最终 Product 分叉以置顶 + 文档为准。[1][2]
3.2 τ-Bench 在测什么(我读 pass^k)
τ-Bench 模拟客服类场景:对话、跟政策、动数据库。主指标 pass^k 是 k 次独立尝试都成功 的概率(再对任务平均)——强调的是稳,而不是「碰运气撞中一次」。[1]
这与不少业务 KPI「用户多试几遍总能成」未必同构;对外汇报前我会先问清:k 对应几次重试、和产品上的 SLA 对不对齐。
四、τ-Bench:航空「难域」、零售「易域」、以及我偷的三条规律
政策难度可对照 GitHub 上 airline wiki 与 retail wiki——航空一般更绕。[1][5]
4.1 航空域(节选 k=1)
以下取原文表格 pass^1 一列(比例;精确到三位以页面为准):[1]
| Configuration | k=1(节选) |
|---|---|
| Think + Prompt | 0.584 |
| Think only | 0.404 |
| Extended thinking | 0.412 |
| Baseline | 0.332 |
正文另有叙述句给过 0.570 / 0.370 量级的对比——以你打开的页面表格与正文哪段更新为准;我在这里不替你拍板合并口径。[1]
4.2 零售域(节选 k=1)
| Configuration | k=1(节选) |
|---|---|
| Think + no prompt | 0.812 |
| Extended thinking | 0.770 |
| Baseline | 0.783 |
原文解读倾向:零售政策相对好走,「给一块想的空间」提升就显;航空则更吃示例化 prompt(清单、决策树、核对项怎么写进 think)。[1]
4.3 我读原文偷的三条(implementation 向)
- 难域:prompt 显著发力——光挂工具不如教模型 在 think 里写什么(规则清单、信息齐不齐、动作合不合规、 tool 输出怎么复核)。
- 易域:有空间可能就够——未必堆长模板。
- pass^k 高 k 仍维持差距——原文用来支撑「更稳地啃边角案例」叙事;别自动等价成你们线上转化率。[1]
五、SWE-bench:另一条「代码里也想一想」的旁证
SWE-bench 设定里加类似的 think,文中有 0.623 一类 SOTA 叙述;对照实验里估算独立贡献约 +1.6% ,并报告 Welch 检验(样本量 n=30 有 think vs n=144 无 think—— 括号里数字以原文为准)。[1]
我拿来当辅助证据:代码修复链里「发现 bug → brainstorm 修法 → 看测试」同样吃得下中途头脑风暴;但别从客服 τ-Bench 直接外推到你们仓库。 [1]
六、边界:什么时候值得试,什么时候我会劝你别加戏
更值得折腾(原文归纳 + 我的转述) :[1]
- 要细嚼慢咽前序 tool 输出,可能要改策略或回溯;
- 政策 / 合规步骤碎,需要逐条对照;
- 顺序决策:后一步吃前一步,错一次很疼。
更可能没必要:[1]
- 调用非顺序、偏并行一次性结束;
- 任务简单、默认行为就够用;
- Extended thinking 已覆盖且 token/延迟账更漂亮。
代价:提示更长、输出 token 更多;双开两条「思考通道」前,我会先算清钱和时延。[1][2]
七、落地:原文 best practices 我压成三张条
- 战略级 prompt + 领域示例:何时调用 think、think 里要过哪些检查项(规则适用、信息够不够、动作是否合规、 tool 结果是否对齐)——航空域大段模板原文已给。[1]
- 又长又复杂的 think 指引:放进 system prompt 往往比全塞进工具 description 更顺。[1]
- 试点路径:先挑最难、最容易违规的用例,再放大范围。[1]
和工具形态本身怎么设计,我仍会回到同系列 Writing effective tools for agents:think 解决链上推理,工具仍要高信号。[6]
深度解析:pass^k 和业务「一次成功」
事实:文内强调 pass^k。[1]
原文观点:一致性 / 可靠性。[1]
我的判断:若产品只关心「多试几次总有一次过」,读 pass^k 时别自我感动——先对齐 k 与重试策略。
材料勘读:置顶更新到底约束了什么
事实:2025-12-15 置顶——多数场景更推荐 Extended thinking。[1]
原文观点:think 在长链、政策、顺序场景有过 demonstrated 增益。[1]
我的解读:新集成以 [2] 为分叉主干;think 文是 方法论档案 + τ-Bench 对照语言,不是「2026 仍要你照抄旧模板」的尚方宝剑。
结论与讨论
技术坐标
think 把链式工具调用里的显式反思做成无副作用工具调用——和「观察→行动→再观察」一类循环同属可观测推理流派;Extended thinking 则把一部分需求收进更一体化的能力。我读下来:两件都是给模型腾思考空间,接口形态不同、官方维护重心已明显倾斜。[1][2]
我会追问的三件事
thought日志进不进留存?谁有权看?- 双开会不会纯烧 token?
- τ-Bench 政策难度和你们业务域是不是一回事?
独立判断(事实 / 原文观点 / 我的解读)
| 类型 | 内容 |
|---|---|
| 事实 | 原文 URL;τ-Bench、SWE-bench 数字与统计以文内为准;置顶与 [2] 为产品分叉依据。[1][2] |
| 原文观点 | think 在特定场景有显著提升叙事;多数场景推荐 Extended thinking。[1] |
| 我的解读 | 新立项先 [2] ;旧文用于迁移、对照、写清边界;日志与合规单独立项。[1][2] |
| 批判性提醒 | Extended thinking + 显式 think双开前做 token/延迟预算;思考链日志外泄≈暴露中间推理,脱敏与留痕要和法务一起定。[1][2] |
收束一句:think 用很轻的实现买来长链上的可检查停顿;但官方已说 多数新路优先 Extended thinking——我以最新文档为准绳,旧文做地图而不做教条。[1][2]
参考文献与延伸阅读
- [1] The "think" tool — Anthropic Engineering
- [2] Extended thinking
- [3] Visible extended thinking — 研究侧背景
- [4] 𝜏-Bench — 基准与工具规格脉络
- [5] tau-bench · airline/retail policy(airline wiki)
- [6] Writing effective tools for agents