清华唐杰教授团队新作！AgentRL框架所训模型性能超过GPT-5清华唐杰教授团队新作！AgentRL框架所训模型性能超

清华唐杰教授团队新作！AgentRL框架所训模型性能超过GPT-5

当前的RL方法主要局限于单轮次、单任务场景，要实现多轮次智能体任务，智能体须通过与环境动态交互收集反馈。与此同时，构建能处理多样化任务的通用智能体始终是RL领域的长期目标。要在多轮次设置中将智能体RL扩展至异构多任务环境，需要在训练基础设施与算法设计层面实现双重突破。

为此，清华大学唐杰团队联合智谱提出AgentRL框架，致力于实现可扩展的多轮多任务智能体强化学习训练。在基础设施层面，AgentRL采用全异步生成-训练流水线架构，确保多轮强化学习的高效执行；为支持多任务强化学习中异构环境开发，设计了基于函数调用的统一API接口、容器化环境开发方案及中央控制器。在算法层面，提出跨策略采样以促进多轮设置下的模型探索，并采用任务优势归一化方法稳定多任务训练。

实验表明，使用AgentRL训练的智能体模型实现了SOTA性能，**性能显著超越GPT-5、Clause-Sonnet-4、DeepSeek-R1等强基线模型。**采用AgentRL进行多任务训练的模型表现与专用模型效果相当。其算法与框架已被应用于AUTOGLM系统的构建。

AgentRL框架

论文开发了智能体强化学习框架AgentRL，以支持多轮次多任务的强化学习训练。该框架通过实现异步训练与环境部署来提升多轮多任务场景下的训练效率，并引入跨策略采样与任务优势归一化技术以增强RL训练的稳定性。具体来说：

图2：AgentRL框架概览。上半部分：异步训练与rollout流程。下半部分：环境框架结构，其中controller负责管理多个worker以提供环境支持，并展示包含跨策略采样与任务优势归一化的rollout细节。

1.多轮智能体强化学习

**异步训练框架：**针对同步批处理存在的效率瓶颈，论文提出了基于协程调度的异步rollout‑training策略。

rollout引擎运行在专用资源组中，与训练异步执行。训练模块在每次参数更新后持续从rollout引擎拉取可用数据，无需等待整批rollout任务完成。

此外，它接受在一定范围内波动的动态批次大小，该设计使调度器能够利用可用协程填充空闲GPU槽位，有效减少流水线气泡并提升整体吞吐量。

图3：同步训练与异步训练的对比。异步训练框架通过将数据rollout与模型训练分离至不同资源组的方式，显著提升了效率。

如图3所示，rollout与训练实现解耦，两者并发执行且异步通信。这种设计实现了高效的硬件调度，图4所示AgentRL的异步流水线相较同步方案带来了显著的吞吐量提升。

图4：AgentRL框架与同步基线在14B参数（Qwen2.5）模型上的Webshop任务吞吐量对比（双轴采用对数刻度）。

为规避rollout引擎的off-policy偏差，设置数据队列的最大容量，并强制每个训练步骤将所有轨迹数据转移至训练引擎。这样所有轨迹都能随最新策略保持即时更新，后续实验证明该方案具有可行性。

图5：AgentRL训练流程解耦为训练框架与环境部署框架，由中央AgentRL控制器统一协调。训练框架负责策略rollout与更新，环境部署框架则管理可扩展的容器化任务环境以提供训练反馈。

可扩展的智能体环境基础设施：为实现大规模智能体强化学习，论文开发了可扩展的环境部署基础设施（图5），包含以下组件：

基于函数调用的环境接口。为简化环境交互，引入统一的基于函数调用的API，取代复杂的自定义动作格式，从而实现集中化管理和监控。
容器化部署。每个任务环境均被容器化为独立执行单元，该设计优化了资源分配，隔离并发会话间的故障，还支持在不同硬件上的无缝部署。
集中式高性能控制器。中央控制器作为训练引擎的全局调度器，针对高并发工作负载进行优化，可管理数千个并行训练回合的生命周期。

跨策略采样：在强化学习训练过程中，模型探索能力通常会随时间推移而减弱。这一问题在状态空间庞大的多轮次训练场景中尤为突出。此外，有研究显示，对自生成数据进行重复训练会导致模型能力退化与方差减小，即出现模型坍塌现象。

图6：不同rollout策略对比。在单一模型生成模式中，所有轨迹的每个步骤均由同一模型生成；混合模式下，半数样本由不同模型分别生成；而在跨策略模式下，所有样本均通过跨策略采样生成。

为此，论文提出跨策略采样（图6），在单条轨迹中用多个大语言模型生成行动。此方法旨在提升候选样本池多样性的同时保证整体质量。

在RL训练过程中，由于架构差异难以将不同模型纳入训练流程，论文改为让模型与其早期版本进行跨策略采样。具体来说，将部分rollout引擎标记为滞后引擎，这些引擎每隔多个训练步长（而非每步）更新一次参数。

2.多任务智能体强化学习

异构环境部署：多任务强化学习要求环境部署框架能够超越单一任务或环境的局限。为在同一基础设施上托管、调度并监控异构环境，同时避免产生额外的集成成本，论文提出在worker和controller层面均采用统一接口。这一设计使得AgentRL能够优雅地扩展任务（环境）集的规模与多样性。

采用两项互补的设计方案：在环境侧，统一所有任务的worker API，使得每个任务都能通过相同的生命周期操作进行实例化和管理；在训练侧（图5），controller向RL引擎提供统一的网关API，封装了任务间的异构性，使得多任务执行成为单任务场景的无感透明扩展。

任务优势归一化：在多任务强化学习中，不同智能体任务往往在难度、序列长度和采样效率等方面存在显著差异。这种异质性会导致标准RL算法在不同任务间的学习速率差异很大。因此某些任务可能展现出明显的奖励提升，而其他任务却进展缓慢，最终引发训练不稳定与性能失衡问题。

对于基于LLM的策略，每个高层动作at由多个token构成。计算token级优势估计值，其中i表示任务索引，s表示任务内的样本索引，g表示组内的轨迹索引，t表示环境步数，k表示内的token位置。

令表示任务i当前批次中所有token的token级优势集合，其中为样本数量，为每个样本的轨迹数，为轨迹中的环境步数，为动作中的token数量。

将每个token的优势值在其任务批次内进行归一化：

其中，。这确保对于每个任务i，批次内token级优势的分布具有零均值和单位方差，有助于降低任务间方差并稳定多任务优化。

实验

论文将AgentRL框架应用Qwen2.5-Instruct系列和GLM-4-9B-0414在内的开源模型。需要说明的是，所有Qwen模型在应用AgentRL前均未进行预热阶段的监督微调。

AgentRL框架在AGENTBENCH-FC五个任务中实现了SOTA性能，创造了70.4%的平均成功率新纪录。与原始采用提示工程的Qwen2.5-Instruct模型相比，AgentRL带来了显著提升，凸显了强化学习训练的有效性。值得注意的是，所有经过AgentRL训练的模型（从3B到32B）超越包括GPT-5、Claude-Sonnet-4 Thinking和DeepSeek-R1等领先模型在内的强基线。

多任务与单任务对比：表4显示，单任务RL智能体仅在其特定训练环境中表现优异，但泛化能力不足，跨任务迁移效果较差。相比之下，多任务AgentRL实现了与单任务专家（Best of Five Models）几乎相当的性能，同时在所有任务上表现强劲。印证了多任务训练在获取可泛化技能的同时不牺牲峰值性能的有效性。

BFCL-v3泛化测试：为检验泛化能力，在BFCL-v3基准上评估了AgentRL模型（在ALFWorld、DB、KG、OS和Webshop任务上训练）。如表5所示，AgentRL在多轮任务上展现出明显改进，在单轮任务上也有适度提升。表明论文方法能有效增强函数调用的泛化能力，为开发更通用的智能体模型迈出重要一步。