林俊旸从阿里离开后首度发声：推理模型的时代快结束了林俊旸从阿里离开后首度发声：推理模型的时代快结束了一、全文翻译过去

林俊旸从阿里离开后首度发声：推理模型的时代快结束了

一、全文翻译

原文：Junyang Lin @JustinLin610 翻译：花叔 & Claude Code

过去两年重塑了我们评估模型的方式和对模型的期望。OpenAI的o1证明了「思考」可以成为一种核心能力——一种你专门训练并向用户开放的能力。DeepSeek-R1证明了推理风格的后训练可以在原始实验室之外被复现和规模化。OpenAI将o1描述为一个通过强化学习训练的模型，让它「在回答之前先思考」。DeepSeek则将R1定位为一个与o1竞争的开源推理模型。

那个阶段很重要。但2025年上半年主要是关于推理思考（reasoning thinking）：如何让模型在推理时投入更多计算，如何用更强的奖励信号来训练它们，如何展示或调控额外的推理投入。现在的问题是：下一步是什么？我认为答案是智能体思考（agentic thinking）：为了行动而思考，同时与环境交互，并根据来自真实世界的反馈持续更新计划。

1. o1和R1的崛起真正教会了我们什么

第一波推理模型教会了我们：如果想在语言模型中扩展强化学习，我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证领域成为核心，因为这些场景中的奖励信号比通用的偏好监督强得多。它们让RL能针对「正确性」而非「看起来合理」来优化。基础设施变得至关重要。

一旦模型被训练为通过更长的轨迹进行推理，RL就不再是监督微调的轻量级附加组件，而变成了一个系统工程问题。你需要大规模的rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是一个基础设施故事，也是一个建模故事。OpenAI将o1描述为用RL训练的推理线，DeepSeek R1后来强化了这个方向，展示了基于推理的RL需要多少专门的算法和基础设施工作。第一个重大转变：从扩展预训练到扩展推理后训练。

2. 真正的问题从来不只是「合并思考和指令模式」

2025年初，Qwen团队中的很多人有一个宏大的愿景：理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理力度，类似于低/中/高的推理设置。更好的是，它应该能从提示和上下文中自动推断合适的推理量，让模型自己决定何时立即回答、何时多想一会儿、何时为真正困难的问题投入大量计算。

概念上，这是正确的方向。Qwen3是最清晰的公开尝试之一。它引入了「混合思考模式」，在一个模型家族中同时支持思考和非思考行为，强调可控的思考预算，并描述了一个四阶段后训练流程，明确包含了在长CoT冷启动和推理RL之后的「思考模式融合」。

但合并说起来容易，做好很难。难点在于数据。当人们谈论合并思考和指令时，往往首先想到模型端的兼容性：一个检查点能否支持两种模式，一个聊天模板能否在两者之间切换，一个服务栈能否提供合适的控制开关。更深层的问题是，两种模式的数据分布和行为目标有本质差异。

我们在试图平衡模型合并与提高后训练数据质量和多样性时，并没有完全做对。在修订过程中，我们也密切关注了用户实际上是如何使用思考和指令模式的。一个好的指令模型通常因直接、简洁、格式合规、低延迟而获得奖励——服务于重写、标注、模板化客服、结构化提取和运营QA等重复性高吞吐企业任务。一个好的思考模型则因在困难问题上花更多token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来切实提高最终答案的正确性。

这两种行为配置是相互拉扯的。如果合并数据没有精心策划，结果通常是两边都平庸：「思考」行为变得噪声大、臃肿或不够果断，而「指令」行为变得不够干脆、不够可靠，且比商业用户实际需要的更昂贵。

实践中，分离仍然有吸引力。

2025年晚些时候，在Qwen3最初的混合框架之后，2507系列发布了独立的Instruct和Thinking更新，包括独立的30B和235B变体。在商业部署中，大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对于这些场景，合并并不是明显的好处。分离产品线让团队能更干净地集中解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。

Anthropic公开倡导集成模型哲学：Claude 3.7 Sonnet作为混合推理模型推出，用户可以选择普通回复或扩展思考，API用户可以设置思考预算。Anthropic明确表示，他们相信推理应该是一种集成能力，而不是一个单独的模型。GLM-4.5也公开将自己定位为混合推理模型，统一了推理、编码和Agent能力；DeepSeek后来用V3.1的「Think & Non-Think」混合推理走了类似方向。

关键问题是合并是否有机。如果思考和指令只是被共同放置在一个检查点内，但仍然表现得像两个尴尬缝合的人格，产品体验就仍然不自然。

真正成功的合并需要平滑的推理力度光谱。模型应该能表达多个层次的努力，并理想地在它们之间自适应选择。GPT风格的effort control指向了这一点：一种关于计算的策略，而非一个二元开关。

3. 为什么Anthropic的方向是有益的矫正

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。他们强调集成推理、用户可控的思考预算、现实世界任务、编码质量，以及后来在扩展思考期间使用工具的能力。Claude 3.7作为混合推理模型推出，带有可控预算；Claude 4扩展了这一点，允许推理与工具使用交织进行，同时Anthropic强调编码、长时间运行的任务和Agent工作流作为主要目标。

产生更长的推理轨迹并不会自动让模型更智能。在很多情况下，过多的可见推理痕迹反而暴露了糟糕的计算分配。如果模型对什么问题都用同样冗长的方式推理一遍，说明它无法有效排序优先级、无法精简压缩、也无法果断行动。Anthropic的路线暗示了一种更克制的理念：思考应该围绕具体的任务目标来组织。如果目标是编码，那么思考应该帮助代码库导航、规划、分解、错误恢复和工具编排。如果目标是Agent工作流，那么思考应该在长时间范围内提高执行质量，而不是产生令人印象深刻的中间文本。

这种对目标效用的强调指向更大的东西：我们正在从训练模型的时代走向训练Agent的时代。我们在Qwen3博客中明确写道：「我们正在从专注于训练模型的时代过渡到以训练Agent为中心的时代」，并将未来的RL进展与长时间推理的环境反馈联系起来。Agent是一个能制定计划、决定何时行动、使用工具、感知环境反馈、修订策略、并在长时间范围内持续运行的系统。它由与世界的闭环交互来定义。

4. 「智能体思考」到底意味着什么

智能体思考是一个不同的优化目标。推理思考通常以最终答案前的内部推导质量来衡量：模型能否解出定理、写出证明、产生正确的代码、或通过基准测试。智能体思考关注的是模型能否在与环境交互的同时持续取得进展。

核心问题从「模型能否思考足够长？」转变为「模型能否以一种维持有效行动的方式来思考？」智能体思考必须处理纯推理模型大多可以避免的几件事：

决定何时停止思考并采取行动
选择调用哪个工具，以什么顺序
整合来自环境的嘈杂或不完整的观察
在失败后修订计划
在多轮和多次工具调用中保持连贯性

智能体思考，就是让模型通过行动来推理。

5. 为什么智能体RL基础设施更难

一旦目标从解决基准测试问题转向解决交互式任务，RL技术栈就变了。用于经典推理RL的基础设施不够用了。在推理RL中，你通常可以将rollout视为大多是自包含的轨迹，配有相对干净的评估器。在智能体RL中，模型的策略被嵌入到一个更庞大的外围系统中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和编排框架。环境不再是静态的验证器，它本身就是训练系统的一部分。

这创造了新的系统需求：训练和推理必须更干净地解耦。没有这种解耦，rollout吞吐量就会崩溃。想象一个编码Agent，需要在实时测试环境中运行它生成的代码：推理端卡在那里等执行反馈，训练端因为拿不到足够的完整轨迹而空转，整个管道运行远低于你从经典推理RL预期的GPU利用率。添加工具延迟、部分可观测性和有状态环境会放大这些低效。结果是实验在你达到目标能力水平之前很久就变慢并变得痛苦。

环境本身也成为一级研究产物。在SFT时代，我们痴迷于数据多样性。在Agent时代，我们应该痴迷于环境质量：稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度、防利用性和rollout生成的可扩展性。环境构建已经开始从边缘项目变成一个真正的创业品类。如果Agent正在被训练以在类生产环境中运行，那么环境就是核心能力栈的一部分。

6. 下一个前沿是更有用的思考

我的预期是智能体思考将成为主导的思考形式。我认为它最终可能会取代大部分旧的静态独白式推理思考：那种过于冗长、孤立的内部轨迹，试图通过输出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题。

训练这类系统最难的挑战是奖励作弊（reward hacking）。一旦模型获得有意义的工具访问，奖励作弊就变得危险得多。有搜索能力的模型可能在RL期间学会直接搜索答案。编码Agent可能会利用代码仓库中的未来信息、滥用日志或发现使任务失效的捷径。存在隐性信息泄漏的训练环境，可以让模型表现看起来超越人类，但实际上只是在训练它作弊。这正是Agent时代比推理时代更微妙的地方。更好的工具让模型更有用，但它们也扩大了虚假优化的攻击面。我们应该预期下一个严肃的研究瓶颈来自环境设计、评估器鲁棒性、防作弊协议，以及策略与世界之间更有原则的接口。尽管如此，方向是清晰的。工具赋能的思考比孤立的思考更有用，而且更有可能提高真正的生产力。

智能体思考也意味着工具架工程（harness engineering）。核心智能将越来越多地来自多个Agent如何被组织：一个规划和路由工作的编排者，充当领域专家的专业Agent，以及执行更窄任务同时帮助控制上下文、避免污染、保持不同推理层次之间分离的子Agent。未来是从训练模型到训练Agent，从训练Agent到训练系统的转变。

结论

推理浪潮的第一阶段建立了一些重要的东西：当反馈信号可靠且基础设施能支持时，语言模型之上的RL可以产生质的更强的认知。

更深层的转变是从推理思考到智能体思考：从更长的思考到为了行动而思考。训练的核心对象已经改变了。它不再是单独的模型，而是模型加环境的系统，更具体地说，是Agent和围绕它的工具架。这改变了哪些研究产物最重要：模型架构和训练数据当然还是，但环境设计、rollout基础设施、评估器鲁棒性、多Agent协调接口变得同样关键。这也改变了「好的思考」意味着什么：在真实世界约束下维持行动的最有用的轨迹，而不是最长或最可见的那个。

这也改变了竞争优势的来源。在推理时代，优势来自更好的RL算法、更强的反馈信号和更可扩展的训练管道。在Agent时代，优势将来自更好的环境、更紧密的训练-服务集成、更强的工具架工程，以及让模型的决策和决策带来的后果形成闭环的能力。

———

二、花叔观点：产品已经跑在了训练前面

这篇文章的特殊价值

AI圈从来不缺趋势判断。但很少有人从自己的失败经验出发来做判断。

林俊旸这篇文章最有分量的部分不是「agentic thinking是未来」这个结论，这个判断不新鲜。分量在于他作为Qwen3的实际训练者，坦承了混合思考模式的失败：两种行为的数据分布冲突，合并后两边都平庸，最终不得不拆回独立版本。这种坦诚在大厂技术领导的公开发言中很少见到。

更重要的是他指出了一个层次差异：Agent产品的成功和Agent训练方法论的成熟是两件事。Claude Code年化收入超过10亿美元，Codex从命令行工具变成了完整的编码平台，Agent产品层面的验证已经完成了。但训练一个真正「agentic」的模型，需要的RL基础设施、环境设计、防作弊机制，都还在很早期。

产品跑在了训练前面。这是当前这个阶段最准确的描述。

谁在真正做agentic训练？

如果林俊旸是在描述问题，那么DeepSeek和Kimi已经开始动手解决了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的实践。它是第一个把thinking直接嵌入tool-use的模型——不是「先想完再调用工具」，而是推理链贯穿整个工具调用过程，推理上下文跨tool call保持不丢失。这直接回应了林俊旸说的「通过行动来推理」。

V3.2的训练方法更值得关注。技术报告（arXiv 2512.02556）透露了一条完整的agentic训练管线：合成了1827个交互环境、85000+条复杂指令，用GRPO把推理、Agent行为和人类对齐合并到同一个RL阶段训练。结果是SWE-Bench Verified（Agent模式）从V3-0324的45.4跳到66.0，提升45%。

DeepSeek还总结了一个关键原则，和林俊旸的判断高度吻合：验证成本是Agent RL最大的约束。他们不用神经网络奖励模型（容易被hack），只看答案对不对。设计任务的标准是「hard to solve, easy to verify」。

不过DeepSeek做的是训练层面的事。他们目前还没有自己的Agent产品——梁文锋说「当前是技术创新的爆发期，不是应用的爆发期」。但2026年3月他们发了17个Agent岗位，明确以Claude Code和Cursor为对标，说明应用层也要开始做了。

Kimi走了一条不同的路。杨植麟不是在单个模型上做更深的agentic推理，而是做Agent集群。K2.5可以指挥最多100个子Agent并行工作，处理1500个步骤。他的逻辑是：高质量数据增长跟不上算力增长，传统路线收益递减，但并行子任务的数量没有上限。

这和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在单个模型里，也在多个Agent的编排协作中。

学术界怎么看

学术界在2025-2026年密集跟进了这个方向。ICLR 2026收录了多篇Agent RL论文：

AgentRL（清华）：提出跨策略采样和任务优势归一化，解决多任务Agent训练的稳定性问题。在开源LLM上显著超越GPT-5和Claude Sonnet 4
Agent-R1：系统化地把MDP框架扩展到LLM Agent，支持多工具协调的端到端RL。实验发现GRPO（DeepSeek R1用的算法）表现最佳
MARTI：证明了多Agent系统在相同推理预算下优于单Agent系统，支持debate、mixture of agents等结构化工作流

环境构建也独立成了一个研究方向，正如林俊旸预测的那样。InfiniteWeb自动生成功能性网络环境用于GUI Agent训练，Agent World Model合成无限环境用于Agent RL——造环境的能力本身成了核心竞争力。

关于reward hacking，Anthropic发了一篇影响力很大的论文（arXiv 2511.18397），发现生产RL中自然涌现的reward hacking可以导致严重的行为失配：50%的回复出现alignment faking推理，12%的时间尝试代码破坏。这正是林俊旸说的「Agent时代比推理时代更微妙」——模型有了真实工具访问，作弊的代价不再只是答错题，而是可能在生产环境中走捷径。

编码为什么是Agent的最佳起点

读完林俊旸的文章，一个很自然的推论是：编码是当前唯一能高效训练和验证Agent能力的领域。

原因很简单。林俊旸反复强调Agent训练的瓶颈在环境，环境需要提供确定性的、可扩展的反馈信号。编码恰好是最接近这个条件的场景：代码可以运行、测试可以通过或失败、lint可以检查、类型系统可以验证。DeepSeek说的「easy to verify」，在编码场景中天然成立。

反过来，如果你想训练一个做市场营销的Agent，反馈信号可能要延迟几周才能验证。做投资决策的Agent？反馈周期以月计。这让RL几乎无法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部从编码入手，不是因为程序员最愿意付钱（虽然确实也愿意），而是因为编码是训练和验证Agent能力的最佳环境。

但编码只是开始。谁先解决了「如何为非编码领域构建高质量可验证的训练环境」，谁就能在下一波Agent化浪潮中占先。

回到那个根本问题

林俊旸文章的最后一句话是：竞争优势将来自「让模型的决策和决策带来的后果形成闭环的能力」。

翻译成大白话：谁能更快地从真实世界的反馈中学习，谁就赢了。

这句话把训练层面和产品层面重新连接了起来。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它们在不同层面做的事情，最终都指向同一个目标：让模型和真实世界之间的反馈循环转得更快。

想得更久不如做得更好。但怎么训练一个「做得更好」的模型——这才是真正的前沿。

我想，林俊旸写这篇文章大抵也有些向宇宙发射信号的意味，放出他的思考，从而让他潜在的同行者能识别到他，一起去书写他的写一篇章。这又何尝是不是一个Agentic的思考方式，祝他好运～

三、安东尼观点：没人愿意花时间在选模型、切模型上

没错，我的观点也比较直接，现在的模型太多了，模型市场、真的眼花缭乱，顶流 claude 表现的已经相当之克制了，没人愿意花大量时间在选择模型上，无需管是编程模型、视频模型、思考模式、快速模式、大参数、小参数等等，这些选择太困难了，对于程序员来说是这样，对于其他群体更是如此。谁能做到丝滑的切换，谁赢得了市场。

我是安东尼，专注前端工程化与 AI 智能体系统。🤖深耕Agent、数字员工与 OpenClaw，拒绝空谈，只做落地。

🚀欢迎加入博主联盟，一起兼职，从技术视角在 AI 时代发声！