林俊旸从阿里离开后首度发声:推理模型的时代快结束了

153 阅读19分钟

林俊旸从阿里离开后首度发声:推理模型的时代快结束了

推理模型的时代快结束了

一、全文翻译

原文:Junyang Lin @JustinLin610 翻译:花叔 & Claude Code

过去两年重塑了我们评估模型的方式和对模型的期望。OpenAI的o1证明了「思考」可以成为一种核心能力——一种你专门训练并向用户开放的能力。DeepSeek-R1证明了推理风格的后训练可以在原始实验室之外被复现和规模化。OpenAI将o1描述为一个通过强化学习训练的模型,让它「在回答之前先思考」。DeepSeek则将R1定位为一个与o1竞争的开源推理模型。

那个阶段很重要。但2025年上半年主要是关于推理思考(reasoning thinking):如何让模型在推理时投入更多计算,如何用更强的奖励信号来训练它们,如何展示或调控额外的推理投入。现在的问题是:下一步是什么?我认为答案是智能体思考(agentic thinking):为了行动而思考,同时与环境交互,并根据来自真实世界的反馈持续更新计划。

1. o1和R1的崛起真正教会了我们什么

第一波推理模型教会了我们:如果想在语言模型中扩展强化学习,我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证领域成为核心,因为这些场景中的奖励信号比通用的偏好监督强得多。它们让RL能针对「正确性」而非「看起来合理」来优化。基础设施变得至关重要。

一旦模型被训练为通过更长的轨迹进行推理,RL就不再是监督微调的轻量级附加组件,而变成了一个系统工程问题。你需要大规模的rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是一个基础设施故事,也是一个建模故事。OpenAI将o1描述为用RL训练的推理线,DeepSeek R1后来强化了这个方向,展示了基于推理的RL需要多少专门的算法和基础设施工作。第一个重大转变:从扩展预训练到扩展推理后训练。

2. 真正的问题从来不只是「合并思考和指令模式」

2025年初,Qwen团队中的很多人有一个宏大的愿景:理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理力度,类似于低/中/高的推理设置。更好的是,它应该能从提示和上下文中自动推断合适的推理量,让模型自己决定何时立即回答、何时多想一会儿、何时为真正困难的问题投入大量计算。

概念上,这是正确的方向。Qwen3是最清晰的公开尝试之一。它引入了「混合思考模式」,在一个模型家族中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个四阶段后训练流程,明确包含了在长CoT冷启动和推理RL之后的「思考模式融合」。

但合并说起来容易,做好很难​。难点在于数据。当人们谈论合并思考和指令时,往往首先想到模型端的兼容性:一个检查点能否支持两种模式,一个聊天模板能否在两者之间切换,一个服务栈能否提供合适的控制开关。更深层的问题是,两种模式的数据分布和行为目标有本质差异。

我们在试图平衡模型合并与提高后训练数据质量和多样性时,并没有完全做对。在修订过程中,我们也密切关注了用户实际上是如何使用思考和指令模式的。一个好的指令模型通常因直接、简洁、格式合规、低延迟而获得奖励——服务于重写、标注、模板化客服、结构化提取和运营QA等重复性高吞吐企业任务。一个好的思考模型则因在困难问题上花更多token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来切实提高最终答案的正确性。

这两种行为配置是相互拉扯的。如果合并数据没有精心策划,结果通常是两边都平庸:「思考」行为变得噪声大、臃肿或不够果断,而「指令」行为变得不够干脆、不够可靠,且比商业用户实际需要的更昂贵。

实践中,分离仍然有吸引力。

2025年晚些时候,在Qwen3最初的混合框架之后,2507系列发布了独立的Instruct和Thinking更新,包括独立的30B和235B变体。在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对于这些场景,合并并不是明显的好处。分离产品线让团队能更干净地集中解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。

Anthropic公开倡导集成模型哲学:Claude 3.7 Sonnet作为混合推理模型推出,用户可以选择普通回复或扩展思考,API用户可以设置思考预算。Anthropic明确表示,他们相信推理应该是一种集成能力,而不是一个单独的模型。GLM-4.5也公开将自己定位为混合推理模型,统一了推理、编码和Agent能力;DeepSeek后来用V3.1的「Think & Non-Think」混合推理走了类似方向。

关键问题是合并是否有机。如果思考和指令只是被共同放置在一个检查点内,但仍然表现得像两个尴尬缝合的人格,产品体验就仍然不自然。

真正成功的合并需要平滑的推理力度光谱。模型应该能表达多个层次的努力,并理想地在它们之间自适应选择。GPT风格的effort control指向了这一点:一种关于计算的策略,而非一个二元开关。

3. 为什么Anthropic的方向是有益的矫正

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。他们强调集成推理、用户可控的思考预算、现实世界任务、编码质量,以及后来在扩展思考期间使用工具的能力。Claude 3.7作为混合推理模型推出,带有可控预算;Claude 4扩展了这一点,允许推理与工具使用交织进行,同时Anthropic强调编码、长时间运行的任务和Agent工作流作为主要目标。

产生更长的推理轨迹并不会自动让模型更智能。在很多情况下,过多的可见推理痕迹反而暴露了糟糕的计算分配。如果模型对什么问题都用同样冗长的方式推理一遍,说明它无法有效排序优先级、无法精简压缩、也无法果断行动​。Anthropic的路线暗示了一种更克制的理念:思考应该围绕具体的任务目标来组织。如果目标是编码,那么思考应该帮助代码库导航、规划、分解、错误恢复和工具编排。如果目标是Agent工作流,那么思考应该在长时间范围内提高执行质量,而不是产生令人印象深刻的中间文本。

这种对目标效用的强调指向更大的东西:我们正在从训练模型的时代走向训练Agent的时代。我们在Qwen3博客中明确写道:「我们正在从专注于训练模型的时代过渡到以训练Agent为中心的时代」,并将未来的RL进展与长时间推理的环境反馈联系起来。Agent是一个能制定计划、决定何时行动、使用工具、感知环境反馈、修订策略、并在长时间范围内持续运行的系统。它由与世界的闭环交互来定义。

4. 「智能体思考」到底意味着什么

智能体思考是一个不同的优化目标。推理思考通常以最终答案前的内部推导质量来衡量:模型能否解出定理、写出证明、产生正确的代码、或通过基准测试。智能体思考关注的是模型能否在与环境交互的同时持续取得进展​。

核心问题从「模型能否思考足够长?」转变为「模型能否以一种维持有效行动的方式来思考?」智能体思考必须处理纯推理模型大多可以避免的几件事:

  • 决定何时停止思考并采取行动
  • 选择调用哪个工具,以什么顺序
  • 整合来自环境的嘈杂或不完整的观察
  • 在失败后修订计划
  • 在多轮和多次工具调用中保持连贯性

智能体思考,就是让模型通过行动来推理。

5. 为什么智能体RL基础设施更难

一旦目标从解决基准测试问题转向解决交互式任务,RL技术栈就变了。用于经典推理RL的基础设施不够用了。在推理RL中,你通常可以将rollout视为大多是自包含的轨迹,配有相对干净的评估器。在智能体RL中,模型的策略被嵌入到一个更庞大的外围系统中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和编排框架。环境不再是静态的验证器,它本身就是训练系统的一部分。

这创造了新的系统需求:训练和推理必须更干净地解耦。没有这种解耦,rollout吞吐量就会崩溃。想象一个编码Agent,需要在实时测试环境中运行它生成的代码:推理端卡在那里等执行反馈,训练端因为拿不到足够的完整轨迹而空转,整个管道运行远低于你从经典推理RL预期的GPU利用率。添加工具延迟、部分可观测性和有状态环境会放大这些低效。结果是实验在你达到目标能力水平之前很久就变慢并变得痛苦。

环境本身也成为一级研究产物。在SFT时代,我们痴迷于数据多样性。在Agent时代,我们应该痴迷于环境质量​:稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度、防利用性和rollout生成的可扩展性。环境构建已经开始从边缘项目变成一个真正的创业品类。如果Agent正在被训练以在类生产环境中运行,那么环境就是核心能力栈的一部分。

6. 下一个前沿是更有用的思考

我的预期是智能体思考将成为主导的思考形式。我认为它最终可能会取代大部分旧的静态独白式推理思考:那种过于冗长、孤立的内部轨迹,试图通过输出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题​。

训练这类系统最难的挑战是奖励作弊(reward hacking)。一旦模型获得有意义的工具访问,奖励作弊就变得危险得多。有搜索能力的模型可能在RL期间学会直接搜索答案。编码Agent可能会利用代码仓库中的未来信息、滥用日志或发现使任务失效的捷径。存在隐性信息泄漏的训练环境,可以让模型表现看起来超越人类,但实际上只是在训练它作弊。这正是Agent时代比推理时代更微妙的地方。更好的工具让模型更有用,但它们也扩大了虚假优化的攻击面。我们应该预期下一个严肃的研究瓶颈来自环境设计、评估器鲁棒性、防作弊协议,以及策略与世界之间更有原则的接口。尽管如此,方向是清晰的。工具赋能的思考比孤立的思考更有用,而且更有可能提高真正的生产力。

智能体思考也意味着工具架工程(harness engineering)。核心智能将越来越多地来自多个Agent如何被组织:一个规划和路由工作的编排者,充当领域专家的专业Agent,以及执行更窄任务同时帮助控制上下文、避免污染、保持不同推理层次之间分离的子Agent。未来是从训练模型到训练Agent,从训练Agent到训练系统的转变。

结论

推理浪潮的第一阶段建立了一些重要的东西:当反馈信号可靠且基础设施能支持时,语言模型之上的RL可以产生质的更强的认知。

更深层的转变是从推理思考到智能体思考:从更长的思考到为了行动而思考。训练的核心对象已经改变了。它不再是单独的模型,而是模型加环境的系统,更具体地说,是Agent和围绕它的工具架。这改变了哪些研究产物最重要:模型架构和训练数据当然还是,但环境设计、rollout基础设施、评估器鲁棒性、多Agent协调接口变得同样关键。这也改变了「好的思考」意味着什么:在真实世界约束下维持行动的最有用的轨迹,而不是最长或最可见的那个。

这也改变了竞争优势的来源。在推理时代,优势来自更好的RL算法、更强的反馈信号和更可扩展的训练管道。在Agent时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的工具架工程,以及让模型的决策和决策带来的后果形成闭环的能力。

———

二、花叔观点:产品已经跑在了训练前面

这篇文章的特殊价值

AI圈从来不缺趋势判断。但很少有人从自己的失败经验出发来做判断。

林俊旸这篇文章最有分量的部分不是「agentic thinking是未来」这个结论,这个判断不新鲜。分量在于他作为Qwen3的实际训练者,坦承了混合思考模式的失败:两种行为的数据分布冲突,合并后两边都平庸,最终不得不拆回独立版本。这种坦诚在大厂技术领导的公开发言中很少见到。

更重要的是他指出了一个层次差异:Agent产品的成功和Agent训练方法论的成熟是两件事​。Claude Code年化收入超过10亿美元,Codex从命令行工具变成了完整的编码平台,Agent产品层面的验证已经完成了。但训练一个真正「agentic」的模型,需要的RL基础设施、环境设计、防作弊机制,都还在很早期。

产品跑在了训练前面。这是当前这个阶段最准确的描述。

谁在真正做agentic训练?

如果林俊旸是在描述问题,那么DeepSeek和Kimi已经开始动手解决了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的实践。它是第一个把thinking直接嵌入tool-use的模型——不是「先想完再调用工具」,而是推理链贯穿整个工具调用过程,推理上下文跨tool call保持不丢失。这直接回应了林俊旸说的「通过行动来推理」。

V3.2的训练方法更值得关注。技术报告(arXiv 2512.02556)透露了一条完整的agentic训练管线:合成了1827个交互环境、85000+条复杂指令,用GRPO把推理、Agent行为和人类对齐合并到同一个RL阶段训练。结果是SWE-Bench Verified(Agent模式)从V3-0324的45.4跳到66.0,提升45%。

DeepSeek还总结了一个关键原则,和林俊旸的判断高度吻合:验证成本是Agent RL最大的约束​。他们不用神经网络奖励模型(容易被hack),只看答案对不对。设计任务的标准是「hard to solve, easy to verify」。

不过DeepSeek做的是训练层面的事。他们目前还没有自己的Agent产品——梁文锋说「当前是技术创新的爆发期,不是应用的爆发期」。但2026年3月他们发了17个Agent岗位,明确以Claude Code和Cursor为对标,说明应用层也要开始做了。

Kimi走了一条不同的路​。杨植麟不是在单个模型上做更深的agentic推理,而是做Agent集群。K2.5可以指挥最多100个子Agent并行工作,处理1500个步骤。他的逻辑是:高质量数据增长跟不上算力增长,传统路线收益递减,但并行子任务的数量没有上限。

这和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在单个模型里,也在多个Agent的编排协作中。

学术界怎么看

学术界在2025-2026年密集跟进了这个方向。ICLR 2026收录了多篇Agent RL论文:

  • AgentRL(清华):提出跨策略采样和任务优势归一化,解决多任务Agent训练的稳定性问题。在开源LLM上显著超越GPT-5和Claude Sonnet 4
  • Agent-R1​:系统化地把MDP框架扩展到LLM Agent,支持多工具协调的端到端RL。实验发现GRPO(DeepSeek R1用的算法)表现最佳
  • MARTI​:证明了多Agent系统在相同推理预算下优于单Agent系统,支持debate、mixture of agents等结构化工作流

环境构建也独立成了一个研究方向,正如林俊旸预测的那样。InfiniteWeb自动生成功能性网络环境用于GUI Agent训练,Agent World Model合成无限环境用于Agent RL——造环境的能力本身成了核心竞争力​。

关于reward hacking,Anthropic发了一篇影响力很大的论文(arXiv 2511.18397),发现生产RL中自然涌现的reward hacking可以导致严重的行为失配:50%的回复出现alignment faking推理,12%的时间尝试代码破坏。这正是林俊旸说的「Agent时代比推理时代更微妙」——模型有了真实工具访问,作弊的代价不再只是答错题,而是可能在生产环境中走捷径。

编码为什么是Agent的最佳起点

读完林俊旸的文章,一个很自然的推论是:编码是当前唯一能高效训练和验证Agent能力的领域​。

原因很简单。林俊旸反复强调Agent训练的瓶颈在环境,环境需要提供确定性的、可扩展的反馈信号。编码恰好是最接近这个条件的场景:代码可以运行、测试可以通过或失败、lint可以检查、类型系统可以验证。DeepSeek说的「easy to verify」,在编码场景中天然成立。

反过来,如果你想训练一个做市场营销的Agent,反馈信号可能要延迟几周才能验证。做投资决策的Agent?反馈周期以月计。这让RL几乎无法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部从编码入手,不是因为程序员最愿意付钱(虽然确实也愿意),而是因为编码是训练和验证Agent能力的最佳环境。

但编码只是开始。谁先解决了「如何为非编码领域构建高质量可验证的训练环境」,谁就能在下一波Agent化浪潮中占先。

回到那个根本问题

林俊旸文章的最后一句话是:竞争优势将来自「让模型的决策和决策带来的后果形成闭环的能力」。

翻译成大白话:谁能更快地从真实世界的反馈中学习,谁就赢了。

这句话把训练层面和产品层面重新连接了起来。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它们在不同层面做的事情,最终都指向同一个目标:让模型和真实世界之间的反馈循环转得更快。

想得更久不如做得更好。但怎么训练一个「做得更好」的模型——这才是真正的前沿。

我想,林俊旸写这篇文章大抵也有些向宇宙发射信号的意味,放出他的思考,从而让他潜在的同行者能识别到他,一起去书写他的写一篇章。这又何尝是不是一个Agentic的思考方式,祝他好运~

三、安东尼观点:没人愿意花时间在选模型、切模型上

没错,我的观点也比较直接,现在的模型太多了,模型市场、真的眼花缭乱,顶流 claude 表现的已经相当之克制了,没人愿意花大量时间在选择模型上,无需管是编程模型、视频模型、思考模式、快速模式、大参数、小参数等等,这些选择太困难了,对于程序员来说是这样,对于其他群体更是如此。谁能做到丝滑的切换,谁赢得了市场。

我是安东尼,专注前端工程化与 AI 智能体系统。🤖深耕Agent、数字员工与 OpenClaw,拒绝空谈,只做落地。

🚀欢迎加入博主联盟,一起兼职,从技术视角在 AI 时代发声!