一键式训练端到端Agent，Qwen3+MCP工具集高效集成！Deepseek-R1 的成功已经证明了纯 RL 路线的强

Deepseek-R1 的成功已经证明了纯 RL 路线的强大潜力，但现有 RL 框架对于工具配置和奖励设计要求较高的工程能力。RLFactory 的出现，正是为了解决这一痛点，让使用者专注于核心算法创新，而无需为繁琐的工程细节分心。

RLFactory 是一个完全开源的、面向Agent模型端到端训练的简单且高效的 RL 后训练框架，其将环境与 RL 后训练解耦，实现了只需工具配置和奖励函数即可训练，并支持异步工具调用，让 RL 后训练提速约 2 倍以上。

RLFactory 有何独特之处？

代码仓库[1]、教程地址[2]和模型地址[3][4]见文末。

为什么要训练端到端Agent模型？

Agent模型的核心能力是通过调用各种形式的工具，完成给定的任务。广义上，RLFactory 支持的“工具”指“不是当前训练模型生成的内容”——它们可以是程序、其他模型，甚至是其他 Agent。

传统工作流依赖人工规则和分阶段处理，效率低下。RLFactory 支持端到端训练，模型可自主推理决策，决定何时、如何调用工具与终止任务，极大提升 LLM 应用的智能化和自动化水平。

下图展示了端到端Agent模型的交互流程：

RLFactory的目标是让用户专注于奖励逻辑和工具配置，以极少的代码实现快速的 Agentic Learning，而进阶开发者则可以专注于提升训练效率和模型性能。

RLFactory的核心优势：

面向未来发展，RLFactory希望维护一个活跃的开源社区，积极听取所有使用者的意见，持续坚持“易用”和“高效”两大核心。

只需配置Qwen3模型和MCP工具，便可快速复现并训练自己的DeepSearch Agent。不需要SFT，Qwen3直接通过RL后训练即可精准调用工具！

训练100步（8*A100，仅5小时），Qwen3-4B得分0.458，Qwen3-8B得分0.463，效率比传统方案提升1.5~2倍！如果涉及模型判分，则效率提升更明显。

模型地址见文末的 Qwen3-8B-GRPO 和 RLFactory-Qwen3-4B-GRPO

模型名称	测试得分（NQ）	总训练时间（100 步）	每步耗时（秒）	训练资源
Search-R1-Qwen2.5-3B-Instruct-GRPO	0.356	7.39 小时	266 秒	A100 × 8
Search-R1-Qwen2.5-7B-Instruct-GRPO	0.451	9.25 小时	333 秒	A100 × 8
Search-R1-Qwen3-4B-GRPO	0.420	7.95 小时	286 秒	A100 × 8
RLFactory-Qwen3-4B-GRPO	0.458	5.30 小时	190 秒	A100 × 8
RLFactory-Qwen3-8B-GRPO	0.463	5.76 小时	207 秒	A100 × 8

原文地址：https://mp.weixin.qq.com/s/prFBT6i9P1yAvlOdC_uG2Q