NLP论文速读(Meta 十月最新)|AI不靠奖励也能“长记性”:Meta 提出“早期经验”让智能体自学成才

87 阅读5分钟

NLP论文速读(Meta 十月最新)|AI不靠奖励也能“长记性”:Meta 提出“早期经验”让智能体自学成才

论文信息:

1

简介

打造真正“越用越聪明”的语言智能体(language agent)——不靠人类手把手教,也能从自己与环境互动的“早期经历”里持续进步。

现有两条主流路线都卡住了:

1)模仿学习(IL):照搬专家示范,数据贵、场景窄,一遇到训练分布外的新状态就“宕机”。

2)强化学习(RL):需要可验证的奖励信号,但真实世界(网页、多轮工具调用等)要么没有明确奖励,要么反馈稀疏、延迟严重,直接上 RL 训练又慢又崩。

因此,作者提出一个中间范式:在无奖励、可大规模采集的环境中,让智能体先靠“自己行动产生的未来状态”自我成长,为后续 RL 或人类监督打好底座。 具体的,该作者提出两个轻量级策略:

1)隐式世界模型(IWM)

把“当前状态 + 我采取的动作 → 下一长什么样”变成下一 token 预测任务,让策略在内部先学会环境动态,再去拟合专家动作。相当于用自身体验先练一把“环境直觉”,减少对专家轨迹的依赖。

2)自我反思(SR)

让模型在每个专家状态旁,自己采样几个“次优动作”,执行后拿到对应结果,再自动生成“为什么专家动作更好”的自然语言解释,然后用这些解释 + 原始动作一起训练。本质是把对比式反思转成密集监督,教会模型“错在哪、为何对”,从而提升泛化与纠错能力。

2

论文方法

Figure 2 是一张“一图看懂早期体验如何落地”的流水线示意图。它把论文提出的两大训练策略——Implicit World Modeling(IWM)与Self-Reflection(SR)——并排展开,用“两阶段、两数据集、两损失函数”的方式,清晰说明同一条“未来状态当监督”的思想怎么具体跑进 GPU。下面按图中左右两条支路,结合后续实验细节,把这张图讲透。

左支路:Implicit World Modeling(隐式世界模型)

① 数据怎么来

起点:专家轨迹 D_expert = {(s_i, a_i)}

对每条专家状态 s_i,让初始策略采样 K 个非专家动作 a_i^j(可随机可模型生成,K≈5–10)

每个 (s_i, a_i^j) 丢进环境真机执行,拿到真实下一状态 s_i^j

形成 rollout 数据集 D_rollout = {(s_i, a_i^j, s_i^j)},规模通常是原专家数据的 5–30 倍

② 训练任务

把“状态 + 动作”拼成输入 prompt,预测下一状态的文本描述(下一 token 预测)

损失:L_IWM = −Σ log p_θ(s_i^j | s_i, a_i^j)

与策略共享参数——同一把网络既当“世界生成器”又当“策略”,实现内部隐式建模,无需额外模块

③ 图 2 中 Stage 1→Stage 2

Stage 1:只在 D_rollout 上做 IWM 热身几 epoch,让模型先“读懂环境因果”

Stage 2:再用 D_expert 做普通行为克隆(L_IL),总步数与纯模仿对齐,保证公平

④ 效果呼应实验

在状态转移稳定的环境(WebShop、ALFWorld)IWM 增益最大:WebShop 上 3B 模型+18.4%绝对成功率(表 2)

图 4(b) 显示随着“分支数”K 增大,IWM 曲线持续上升——更多非专家转移 → 更密实的动态先验

右支路:Self-Reflection(自我反思)

① 数据怎么来

同一批 rollout 数据继续复用:每条 (s_i, a_i^j, s_i^j) 再配一个“专家结果” s_{i+1}(来自原始 a_i)

用同一个 LLM 做评论员:prompt 模板把 s_i、两个结果状态、动作对扔进去,生成自然语言对比解释 c_i^j

例:“选 red shirt 会超预算,而 blue shirt 满足≤20$ 约束,故专家动作更优。”

得到反思数据集 D_refl = {(s_i, a_i^j, c_i^j)},量级与 D_rollout 相当

② 训练任务

输入仍是 s_i,但目标输出是反思文本 ⊕ 专家动作(拼接序列)

损失:L_SR = −Σ log p_θ(c_i^j ◦ a_i | s_i)

目标:让策略在生成动作前先学会“自我辩论”,把约束、副作用显式说给自己听,再给出决策

③ 图 2 中 Stage 1→Stage 2

Stage 1:在 D_refl 上训练,先学会“批判性思维”

Stage 2:与 D_expert 混合训练(比例约 1:1),既保留专家示范,又注入对比式推理。

3

论文实验

Table 2 给出了“早期体验”范式在 8 个语言智能体基准上的主实验结果,目的是回答:在无需外部奖励的前提下,仅用智能体自己生成的“未来状态”做监督,是否能全面优于传统模仿学习(Behavior Cloning,BC)?从实验结果可以看出:

早期体验(IWM 与 SR)在 8 个环境、3 个模型上全线碾压模仿学习:最小增益 +0.6%,最大达 +18.4%(WebShop-3B),平均提升约 8–10%;其中状态转移稳定的任务 IWM 更占优,多约束长程规划任务 SR 更突出,且参数越小收益越明显,充分证明“用自己的动作-未来状态当免费老师”即可在零奖励、零额外人工的前提下实现更高成功率、更强泛化与更低部署成本。