Meta超级智能Lab提出Early Experience增强Agent训练

71 阅读4分钟

摘要

本文提出 Early Experience(早期经验) 训练范式,使语言智能体在无奖励环境中也能从自身行为后果中学习,突破传统依赖专家示范(SFT)或依赖奖励的强化学习(RL)的局限。具体设计了两类关键机制:

  1. Implicit World Modeling(隐式世界建模 IWM) :利用模型自己生成的备用行动和对应的未来状态,训练模型预测状态转移,从而让策略内化环境动态。
  2. Self-Reflection(自我反思 SR) :利用专家动作与模型探索动作的结果差异,生成“反思解释”,帮助模型学习为什么某些决策更优。

在八个多样化语言智能体环境中,Early Experience 均显著优于纯模仿学习,并在奖励可用的环境中作为 RL 的 warm-start 带来更高最终性能。

  • 论文标题:Agent Learning via Early Experience
  • 论文链接:arxiv.org/pdf/2510.08…
  • 发表单位:Meta Superintelligence Labs

image.png

1 简介

当前语言智能体的训练主要依赖两类方法:

  • SFT(也叫Imitation Learning,模仿学习):依赖专家示范数据,无需奖励,但不具备从自身错误中学习的能力,泛化性弱且难以扩展。
  • RL(强化学习) :依赖准确奖励函数,但现实环境中奖励往往不可用、不可验证(如网页、API、多轮工具调用),训练不稳定且成本极高。

实现“可从自身经验中成长”的智能体成为一大挑战。本文提出 Early Experience 框架——一种介于 SFT 与 RL 之间的训练范式:

智能体在已有专家轨迹上生成多个备用动作并执行,收集真实的未来状态,这些未来状态本身就是监督信号,无需奖励。

该方法不需要外部奖励模块,仅依赖模型自己的动作和世界反馈。本文基于此设计了两类训练机制:

  1. IWM(Implicit World Modeling) :让模型学习“动作如何改变环境”;
  2. SR(Self-Reflection) :让模型学习“为什么专家动作比自身动作好”。

分别对应环境理解与决策能力,共同验证了 Early Experience 有效性。

2 方法

Early Experience 在专家示范基础上增加“探索生成的未来状态”,核心流程如下:

  1. 从专家数据采样状态ss
  2. 模型生成 K 个备用动作 a1,,aK{a^1, …, a^K}
  3. 在环境中执行这些动作,得到真实未来状态 s1,,sK{s^{1'}, …, s^{K'}}
  4. 使用这些(无奖励)数据构成可扩展的监督信号。

基于这些扩展数据,本文提出两种具体方法。

image.png

2.1 Implicit World Modeling(IWM)

隐式世界建模任务的目标是让模型学会环境动态,即:

“在状态ss 执行动作aa,下一状态 ss' 会变成什么?”

在训练时,将当前环境状态和智能体的动作(s,a)(s, a) 作为输入,训练模型预测 s′(自然语言形式的下一状态),使用标准 next-token loss:

LIWM=logpθ(ss,a)\mathcal{L}_{\text{IWM}} = - \log p*\theta(s' \mid s, a)

IWM任务不需要奖励函数和独立的世界模型模块,而是直接让策略模型内化环境变化规律(DOM 变化、工具输出变化等),类似“世界建模预训练”,再接 SFT 微调。

该方法适用于环境动态相对稳定的任务,如 ALFWorld、WebShop、科学实验等,能够显著提高策略对非专家状态的鲁棒性与泛化能力。

2.2 Self-Reflection(SR)

自我反思任务的目标是让模型理解“为什么专家动作更好”,主要步骤如下:

  1. 对专家状态执行专家动作 → 得到专家未来状态 ss^{*}
  2. 对同一状态执行模型备用动作 → 得到次优未来状态 sjs^{j'}
  3. 将二者差异输入到一个 LLM 中,让其生成反思解释 cjc_j

    “为什么专家动作更合理?”

  4. 用 (state, reflection, expert action) 作为训练数据:
LSR=logpθ(cj,as)\mathcal{L}_{\text{SR}} = - \log p*\theta(c_j, a^* \mid s)

image.png

SR任务通过“对比专家与探索动作的结果差异”,强化决策动机,使模型学到哪些动作是更优的,而不是单纯的接受“哪个动作”应该做。其适用于需要约束满足、多步推理的任务:如 TravelPlanner、ScienceWorld、BFCLv3 等。

3 实验

作者在八个环境上进行系统评测,涵盖了:

  • 网页导航(WebArena、WebShop)
  • 具身环境(ALFWorld)
  • 多轮工具使用(BFCLv3、TauBench)
  • 科学实验(ScienceWorld)
  • 搜索问答(SearchQA)
  • 长程规划(TravelPlanner)

image.png

3.1 效果:Early Experience vs. Imitation Learning

实验结果显示:

  1. Early Experience 在所有环境中均优于纯 SFT
  2. IWM 与 SR 各有适用场景
    • IWM 更适合“动态稳定、结构明确”的环境
    • SR 更适合“多步骤推理和逻辑对比”的任务
  3. 模型大小越大,Early Experience 提升越稳定(3B ~ 70B 均有效)

image.png

3.2 Out-of-domain(OOD)泛化

在 OOD split 上观察到:

  • Early Experience 能恢复相当比例性能损失
  • 某些任务 OOD 提升甚至大于 in-domain
  • 说明“从自身探索经验中学习”有助于应对陌生状态空间

image.png

3.3 提升 RL Warm-start 效果

在可提供 verifiable reward 的环境(WebShop、ALFWorld、SearchQA)中:

  • 用 Early Experience 初始化 RL
    → RL 最终性能显著高于普通模仿学习初始化
  • 同样的 GRPO 训练步骤下:
    → Early Experience 的版本更高、更稳、更快收敛
  • 从 Base 模型直接进行 RL → 最差且极不稳定

可以看到,Early Experience 是 RL 的强力前置阶段,可显著提升最终 RL 性能。

image.png

3.4 数据量与分支因子(K)分析

  • 数据量减少至 1/2 ~ 1/8 时仍能超过 SFT 全数据性能
  • IWM 随 K 增大效果提升更显著(更多未来状态 → 更丰富动态规律,K就是在一个状态下尝试的非标注动作的数目,K越大表明模型在一个状态下尝试了更多的非标注动作)
  • SR 在中等 K 最佳(K 太大反而引入“多种同样合理动作”,对比变弱)

image.png

4 总结

本文提出了 Early Experience 这一新范式,使语言智能体能够不依赖奖励和大规模额外监督,在真实环境中通过自身行为“获得训练信号”。本文给出的两种方法——隐式世界建模(IWM)与自我反思(SR)在八个复杂环境中,持续超越模仿学习,并作为 RL 的 warm-start 显著提升最终性能。该范式有望成为连接“专家数据时代”与“经验驱动时代”的过渡桥梁。

未来方向包括:1)扩展到更长序列的信用分配;2)引入更多自监督信号;3)基于 Early Experience 做持续学习 ;4)结合 IWM + SR 的统一智能体框架(论文未做但极具潜力)