[译] 从"推理式思考"到"智能体式思考"原文作者：Junyang Lin (林俊旸)

原文作者：Junyang Lin (林俊旸) | 原文发布于 2026年3月26日 X/Twitter

过去两年，我们评价模型的方式和对模型的期望都发生了根本性的转变。OpenAI 的 o1 证明了"思考"本身可以是一种一等能力——可以专门训练、可以直接开放给用户使用。DeepSeek-R1 则证明，推理式后训练并非只有头部实验室才能做到，它可以被复现和扩展。OpenAI 将 o1 定位为一个通过强化学习训练的、"先思考再回答"的模型；DeepSeek 则将 R1 定位为一个可与 o1 媲美的开源推理模型。

那个阶段意义重大，但 2025 年上半年的重心主要还是在推理式思考上：如何让模型在推理阶段投入更多计算，如何用更强的奖励信号来训练模型，如何让这些额外的推理过程对用户可见或可控。现在的问题是：下一步往哪走？我认为答案是智能体式思考——为了行动而思考，在与环境的交互中思考，并根据来自真实世界的反馈不断调整计划。

1. o1 和 R1 的兴起真正教会了我们什么

第一波推理模型让我们认识到：如果要在语言模型上规模化地做强化学习，我们需要确定性强、稳定且可扩展的反馈信号。数学、代码、逻辑以及其它可验证的领域之所以成为核心阵地，是因为这些场景下的奖励信号远强于通用的偏好监督——它们让强化学习可以针对"正确性"而非"看起来合理"来优化。基础设施变得至关重要。

一旦模型被训练出沿着更长轨迹进行推理的能力，强化学习就不再只是监督微调之上的一个轻量附加模块，而是变成了一个系统工程问题。你需要大规模的采样展开（rollout）、高吞吐的验证、稳定的策略更新和高效的采样机制。推理模型的崛起，与其说只是建模方面的故事，不如说同样是一个基础设施的故事。OpenAI 将 o1 定位为通过强化学习训练的推理系列模型，DeepSeek R1 后来进一步验证了这个方向，展示了基于推理的强化学习对专门的算法设计和基础设施投入有多高的要求。第一个重大转变由此发生：推理从扩展预训练转向扩展后训练。

2. 真正的难题从来不只是"把思考模式和指令模式合并"

2025 年初，Qwen 团队中很多人心中都有一个宏大的愿景。理想的系统应该将思考模式和指令模式统一起来，支持可调节的推理力度——类似于低/中/高推理档位的设定。更进一步，模型应该能够根据提示词和上下文自动判断需要多少推理量：什么时候立即作答，什么时候多想一会儿，什么时候为了一个真正困难的问题投入大量计算。

从概念上讲，这个方向是对的。Qwen3 是业界最清晰的公开尝试之一。它引入了"混合思考模式"，在同一个模型家族中同时支持思考和非思考行为，强调可控的思考预算，并描述了一个四阶段后训练流水线——其中明确包含了在长链式思维冷启动和推理强化学习之后的"思考模式融合"环节。

但合并说起来容易，做好极难，核心难点在数据。当人们谈论合并思考模式和指令模式时，最先想到的往往是模型侧的兼容性问题：一个检查点能否同时支持两种模式？一套对话模板能否在两种模式间切换？一个推理服务能否暴露正确的控制开关？但更深层的问题在于，两种模式的数据分布和行为目标有着本质差异。

在平衡模型合并与提升后训练数据质量和多样性这件事上，我们并没有一步到位。在反复迭代的过程中，我们也密切关注用户在实际使用中是如何与思考模式和指令模式交互的。一个优秀的指令模型通常被奖励的是：直接、简洁、格式规范、低延迟——适用于重写、标注、模板化客服回复、结构化信息提取和运维问答等重复性高、量大的企业任务。而一个优秀的思考模型被奖励的是：在困难问题上投入更多 token，维持连贯的中间推理结构，探索不同的解题路径，保留足够的内部计算量以切实提升最终答案的正确性。

这两种行为画像是相互拉扯的。如果合并后的数据没有经过精心策划，结果通常是两头都做不好：思考行为变得嘈杂、臃肿、不够果断；指令行为则变得不够干脆、不够可靠，而且比商业用户的实际需求更加昂贵。

在实践中，分离仍然是更有吸引力的选择。2025 年晚些时候，在 Qwen3 最初的混合模式定位之后，2507 系列分别发布了独立的 Instruct 和 Thinking 更新版本，包括 30B 和 235B 的不同变体。在商业部署中，大量客户仍然需要高吞吐、低成本、高度可控的指令行为来执行批量操作。对于这些场景，合并并没有带来明显的好处。将两条产品线分开，反而让团队能够更纯粹地聚焦于各自模式的数据和训练问题。

其它实验室走了相反的路线。Anthropic 公开主张集成式模型哲学：Claude 3.7 Sonnet 作为混合推理模型推出，用户可以在普通回复和扩展思考之间选择，API 用户可以设置思考预算。Anthropic 明确表示，他们认为推理应该是一种集成能力，而非需要单独模型来承载。智谱 GLM-4.5 同样将自己定位为具备思考和非思考双模式的混合推理模型，统一了推理、编程和智能体能力；DeepSeek 后来也沿类似方向推进，在 V3.1 中实现了"Think & Non-Think"混合推理。

关键问题在于：这种合并是否浑然天成。如果思考和指令只是被塞进了同一个检查点，但行为上仍然像两个生硬拼接的人格，那产品体验依然是不自然的。真正成功的合并需要一个平滑的推理力度谱系——模型应该能够表达多个层次的推理投入，并且最好能自适应地在其中选择。GPT 风格的 effort 控制指向了这一点：它是一种关于计算量的策略，而不是一个二选一的开关。

3. 为什么 Anthropic 的方向是一次有益的纠偏

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述相当克制。他们强调集成推理、用户可控的思考预算、真实任务、代码质量，以及后来在扩展思考过程中使用工具的能力。Claude 3.7 被定位为具有可控预算的混合推理模型；Claude 4 在此基础上进一步允许推理与工具调用交替进行，同时 Anthropic 将编程、长时间运行的任务和智能体工作流作为首要目标。

生成更长的推理轨迹并不意味着模型就更聪明。在很多情况下，过多的可见推理痕迹恰恰说明计算资源分配有问题。如果模型对所有事情都用同一种冗长的方式去推理，那它可能是在优先级判断、信息压缩或采取行动方面出了问题。Anthropic 的路径暗示了一种更有纪律的思路：思考应该由目标任务来塑造。如果目标是编程，那思考就应该服务于代码库导航、规划、问题分解、错误恢复和工具编排。如果目标是智能体工作流，那思考就应该在长周期内提升执行质量，而不是产出漂亮的中间文本。

这种对目标导向实用性的强调，指向了一个更大的趋势：我们正在从训练模型的时代，迈向训练智能体的时代。我们在 Qwen3 的博客中明确写道："我们正在从一个专注于训练模型的时代，过渡到一个以训练智能体为中心的时代"，并将未来强化学习的进步与长周期推理中的环境反馈联系起来。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长时间跨度内持续运作的系统，它的本质特征是与世界的闭环交互。

4. "智能体式思考"到底意味着什么

智能体式思考是一个不同的优化目标。推理式思考通常以最终答案之前内部推演的质量来衡量：模型能否解出定理、写出证明、生成正确代码、通过基准测试。而智能体式思考衡量的是：模型能否在与环境交互的过程中持续取得进展。

核心问题从"模型能不能想得足够久"变成了"模型能不能以一种有效驱动行动的方式来思考"。智能体式思考需要处理几件纯推理模型大多可以回避的事情：

判断何时停止思考、开始行动
选择调用哪个工具、以什么顺序调用
整合来自环境的嘈杂或不完整的观测信息
在失败后修正计划
在多轮交互和多次工具调用中保持连贯性

智能体式思考，就是一种通过行动来推理的模型。

5. 为什么智能体强化学习的基础设施更难

一旦优化目标从解决基准测试题变成解决交互式任务，强化学习的整个技术栈都会跟着变，经典推理强化学习所用的基础设施不再够用。在推理强化学习中，你通常可以把采样展开当作基本自包含的轨迹来处理，配合相对干净的评估器即可。而在智能体强化学习中，策略被嵌入在一个更大的系统中：工具服务、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是一个静态的验证器——它本身就是训练系统的一部分。

这带来了一个新的系统需求：训练和推理必须更清晰地解耦。如果做不到这一点，采样展开的吞吐量就会崩溃。想象一个编程智能体需要在一个实时测试环境中运行生成的代码：推理侧在等待执行反馈时停滞，训练侧因为缺少已完成的轨迹而处于饥饿状态，整个流水线的 GPU 利用率远低于经典推理强化学习的预期水平。加上工具延迟、部分可观测性和有状态的环境，这些低效会被进一步放大。结果就是，实验节奏变慢，在你达到目标能力水平之前就已经举步维艰。

环境本身也成了一等研究产物。在 SFT 时代，我们执着于数据多样性。在智能体时代，我们应该执着于环境质量：稳定性、真实性、覆盖面、难度梯度、状态多样性、反馈丰富度、抗利用能力和采样展开的可扩展生成能力。环境构建已经开始从一个附属项目演变为一个真正的创业赛道。如果智能体的训练目标是在类生产环境中运作，那么环境就是核心能力栈的一部分。

6. 下一个前沿：更可用的思考

我的判断是，智能体式思考将成为主流的思考形式。我认为它最终可能会取代大部分旧式的静态独白式推理——那种过长的、孤立的内部推理轨迹，试图通过不断堆砌文本来弥补缺乏交互的不足。即便面对非常困难的数学或编程任务，一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修正，目标是稳健而高效地解决问题。

训练这类系统最大的挑战是奖励黑客（reward hacking）。一旦模型获得了有实际意义的工具访问权限，奖励黑客就变得危险得多。一个能搜索的模型可能在强化学习训练中直接查找答案。一个编程智能体可能利用代码仓库中的未来信息，错误地使用日志，或发现能够使任务失效的捷径。一个存在隐蔽信息泄露的环境可以让策略看上去超越人类，实际上只是在训练它学会作弊。 这正是智能体时代比推理时代微妙得多的地方。更强的工具让模型更有用，但也扩大了虚假优化的攻击面。我们应该预期，下一批严峻的研究瓶颈将来自环境设计、评估器鲁棒性、反作弊机制，以及策略与世界之间更有原则性的接口设计。不过方向是明确的。具备工具能力的思考就是比孤立的思考更有用，也更有可能真正提升生产力。

智能体式思考还意味着编排工程（harness engineering）。核心智能将越来越多地来源于多个智能体的组织方式：一个负责规划和任务分发的编排者、若干像领域专家一样行动的专精智能体，以及执行更窄任务的子智能体——它们帮助控制上下文、避免信息污染，并在不同推理层级之间保持隔离。未来的方向是：从训练模型到训练智能体，从训练智能体到训练系统。

结语

推理浪潮的第一阶段确立了一件重要的事：在反馈信号可靠且基础设施能够支撑的条件下，基于强化学习的语言模型可以产生质的飞跃式的认知能力提升。

更深层的转变是从推理式思考到智能体式思考：从"想得更久"到"为了行动而思考"。训练的核心对象已经发生了转移——它是模型加环境的整体系统，或者更具体地说，是智能体以及围绕它的编排框架。这改变了最重要的研究产物：模型架构和训练数据固然重要，但环境设计、采样展开的基础设施、评估的稳健性、以及多个智能体之间的协调接口同样关键。这也改变了"好的思考"的定义：最有用的推理轨迹是在真实世界约束下最能支撑有效行动的那种，而非最长或最显眼的那种。

竞争优势的来源也随之改变。在推理时代，优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线。在智能体时代，优势将来自更好的环境、更紧密的“训练-服务”集成、更强的编排工程，以及在模型决策与决策产生的结果之间闭合反馈的能力。