NLP论文速读（Meta 十月最新）|AI不靠奖励也能“长记性”：Meta 提出“早期经验”让智能体自学成才NLP论文速

NLP论文速读（Meta 十月最新）|AI不靠奖励也能“长记性”：Meta 提出“早期经验”让智能体自学成才

论文信息：

简介

打造真正“越用越聪明”的语言智能体（language agent）——不靠人类手把手教，也能从自己与环境互动的“早期经历”里持续进步。

现有两条主流路线都卡住了：

1）模仿学习（IL）：照搬专家示范，数据贵、场景窄，一遇到训练分布外的新状态就“宕机”。

2）强化学习（RL）：需要可验证的奖励信号，但真实世界（网页、多轮工具调用等）要么没有明确奖励，要么反馈稀疏、延迟严重，直接上 RL 训练又慢又崩。

因此，作者提出一个中间范式：在无奖励、可大规模采集的环境中，让智能体先靠“自己行动产生的未来状态”自我成长，为后续 RL 或人类监督打好底座。具体的，该作者提出两个轻量级策略：

1）隐式世界模型（IWM）

把“当前状态 + 我采取的动作 → 下一长什么样”变成下一 token 预测任务，让策略在内部先学会环境动态，再去拟合专家动作。相当于用自身体验先练一把“环境直觉”，减少对专家轨迹的依赖。

2）自我反思（SR）

让模型在每个专家状态旁，自己采样几个“次优动作”，执行后拿到对应结果，再自动生成“为什么专家动作更好”的自然语言解释，然后用这些解释 + 原始动作一起训练。本质是把对比式反思转成密集监督，教会模型“错在哪、为何对”，从而提升泛化与纠错能力。

论文方法

Figure 2 是一张“一图看懂早期体验如何落地”的流水线示意图。它把论文提出的两大训练策略——Implicit World Modeling（IWM）与Self-Reflection（SR）——并排展开，用“两阶段、两数据集、两损失函数”的方式，清晰说明同一条“未来状态当监督”的思想怎么具体跑进 GPU。下面按图中左右两条支路，结合后续实验细节，把这张图讲透。

左支路：Implicit World Modeling（隐式世界模型）

① 数据怎么来

起点：专家轨迹 D_expert = {(s_i, a_i)}

对每条专家状态 s_i，让初始策略采样 K 个非专家动作 a_i^j（可随机可模型生成，K≈5–10）

每个 (s_i, a_i^j) 丢进环境真机执行，拿到真实下一状态 s_i^j

形成 rollout 数据集 D_rollout = {(s_i, a_i^j, s_i^j)}，规模通常是原专家数据的 5–30 倍

② 训练任务

把“状态 + 动作”拼成输入 prompt，预测下一状态的文本描述（下一 token 预测）

损失：L_IWM = −Σ log p_θ(s_i^j | s_i, a_i^j)

与策略共享参数——同一把网络既当“世界生成器”又当“策略”，实现内部隐式建模，无需额外模块

③ 图 2 中 Stage 1→Stage 2

Stage 1：只在 D_rollout 上做 IWM 热身几 epoch，让模型先“读懂环境因果”

Stage 2：再用 D_expert 做普通行为克隆（L_IL），总步数与纯模仿对齐，保证公平

④ 效果呼应实验

在状态转移稳定的环境（WebShop、ALFWorld）IWM 增益最大：WebShop 上 3B 模型+18.4%绝对成功率（表 2）

图 4(b) 显示随着“分支数”K 增大，IWM 曲线持续上升——更多非专家转移 → 更密实的动态先验

右支路：Self-Reflection（自我反思）

① 数据怎么来

同一批 rollout 数据继续复用：每条 (s_i, a_i^j, s_i^j) 再配一个“专家结果” s_{i+1}（来自原始 a_i）

用同一个 LLM 做评论员：prompt 模板把 s_i、两个结果状态、动作对扔进去，生成自然语言对比解释 c_i^j

例：“选 red shirt 会超预算，而 blue shirt 满足≤20$ 约束，故专家动作更优。”

得到反思数据集 D_refl = {(s_i, a_i^j, c_i^j)}，量级与 D_rollout 相当

② 训练任务

输入仍是 s_i，但目标输出是反思文本 ⊕ 专家动作（拼接序列）

损失：L_SR = −Σ log p_θ(c_i^j ◦ a_i | s_i)

目标：让策略在生成动作前先学会“自我辩论”，把约束、副作用显式说给自己听，再给出决策

③ 图 2 中 Stage 1→Stage 2

Stage 1：在 D_refl 上训练，先学会“批判性思维”

Stage 2：与 D_expert 混合训练（比例约 1:1），既保留专家示范，又注入对比式推理。

论文实验

Table 2 给出了“早期体验”范式在 8 个语言智能体基准上的主实验结果，目的是回答：在无需外部奖励的前提下，仅用智能体自己生成的“未来状态”做监督，是否能全面优于传统模仿学习（Behavior Cloning，BC）？从实验结果可以看出：

早期体验（IWM 与 SR）在 8 个环境、3 个模型上全线碾压模仿学习：最小增益 +0.6%，最大达 +18.4%（WebShop-3B），平均提升约 8–10%；其中状态转移稳定的任务 IWM 更占优，多约束长程规划任务 SR 更突出，且参数越小收益越明显，充分证明“用自己的动作-未来状态当免费老师”即可在零奖励、零额外人工的前提下实现更高成功率、更强泛化与更低部署成本。