规划能力超DeepSeek-R1!微信联合提出智能体规划训练框架RLTR

33 阅读5分钟

规划能力超DeepSeek-R1!微信联合提出智能体规划训练框架RLTR

智能体主要依赖行动规划与答案总结两大核心功能,其中规划阶段在智能体系统中至关重要,最终输出的准确性很大程度上取决于通过完整工具调用所收集的全面信息。当前主流的智能体训练方法采用端到端的多目标优化范式,即联合优化行动规划和答案总结。然而,该方法存在两个关键问题:优化目标分配失衡(轨迹中的正确行动可能因最终响应的错误而受到不合理惩罚)与可验证数据稀缺,这些问题导致智能体的规划能力难以有效提升。【AI大模型教程】

为解决这些问题,微信团队联合提出**RLTR(Reinforcement Learning with Tool-use Rewards)智能体训练框架,通过解耦训练过程,实现对规划模块的聚焦式单目标优化。**该框架的核心创新在于引入基于工具使用完整度的奖励信号,可直接评估工具调用序列的质量。相较于通过最终回答内容进行评估,这种机制能提供更直接可靠的学习信号,从而摆脱对可验证数据的依赖。

实验表明:经RLTR方法训练的模型在规划性能上较端到端基线模型提升8%-12%,且增强的规划能力进一步将智能体的最终回答质量提升5%-6%

  • 论文标题:Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning

01

问题建模

论文定义了端到端智能体的多目标优化和专注于动作的单目标优化。这两种情况下,任务都被建模为顺序决策过程:针对给定查询的单次交互可表示为轨迹是终止步骤。状态包含查询和工具交互历史,动作空间由工具集T中的K个工具及终止动作ANSWER构成。

端到端智能体的优化目标采用最终答案奖励函数,并将规划与总结生成相结合,定义如下:

论文方法通过动作规划评分函数规划策略。规划模块经充分优化并输出规划轨迹,总结模块  生成最终的端到端响应y。整体流程的定义如下:

02

训练框架

1.冷启动

如上图(A)所示,论文采用最先进的大语言模型作为教师模型,通过知识蒸馏实现规划模块的冷启动。

  • 首先,输入智能体模拟指令与问题,从教师模型中采样多条智能体行动轨迹;
  • 随后使用同一教师模型进行拒绝采样,筛选出最优的n条轨迹作为训练数据。
  • 以问题作为输入、教师模型生成的行动轨迹作为输出,对规划模块进行监督微调(SFT)以实现冷启动,从而提升模型处理规划任务格式的能力。

2.工具使用完整度计算

对于大多数结果难以验证的工业数据而言,评估过程需同时检验行动充分性与总结准确性。论文通过将奖励焦点从难以评估的最终答案的正确性,转移到了相对更容易评估的行动序列的完整性上(即规划模块),实现了两个因素的解耦。

为此论文引入完整度检查函数,其中  表示状态的行动序列是否完整(1为完整,0为不完整)。该函数使用带有检查指令的验证大语言模型(Comp.Checker)实现。调用完整度通过计算个样本的平均值得出,计算公式如下:

3.多轮强化学习

首先计算整体工具使用奖励  。

  • 初始阶段验证智能体轨迹格式是否正确:错误立即分配-1奖励;正确则继续计算工具使用完整度奖励  。

  • 此外,引入基于规则的奖励以稳定训练过程,包括用于抑制冗余工具调用的重复惩罚奖励  ,及针对错误工具使用的负向奖励  。这些负向奖励聚合为。总奖励定义如下:

随后,采用该工具使用奖励函数进行评分。在多轮模板构建过程中,对工具使用结果进行掩码处理,使其不参与损失计算。这种做法既可避免梯度信号稀释,又能确保智能体专注于优化工具调用行为。论文将规划模块的优化目标(公式1)进一步精炼为标准强化学习形式:

其中x表示从分布D中采样的数据,a表示根据策略采样的工具使用动作,β 控制KL正则化强度, 为参考模型,通过在线强化学习优化该目标。

最终构建完整智能体管道:无论是否经过训练的大语言模型均可作为总结模块 ,该模块调用工具收集信息并形成轨迹  。轨迹随后输入至总结模块,生成最终响应:  。

03

实验

PO:仅优化规划模块。DIRECT:直接使用原始LLMs进行工具调用和生成答案。

论文使用工具使用完整性(Com.)作为规划任务的评估指标。最终响应指标方面,对于包含标准答案的开源数据集,采用智能体生成响应与真实答案之间的匹配精度(Match)来评估最终响应质量。针对缺乏标准答案的工业数据集,采用帮助性(Hel.)和相关性(Rel.)等通用指标进行评估。

规划性能结果显示,在1.7B和8B模型的SFT与RL训练阶段,规划模块相比端到端智能体均展现出更优的规划优化性能:核心工具使用完整度指标平均提升约8%-12%。该提升在困难子集上尤为显著,印证了针对性规划能力优化对解决复杂问题的关键价值。

最终响应性能结果显示,在不同模型的SFT与RL阶段,规划模块在最终响应性能上均超越端到端智能体,平均提升约5%-6%。这表明规划模块增强的规划能力有助于提升整体智能体的综合性能。