Plan4MC(23年3月)(对比DreamerV3)

0 阅读2分钟

现状

一方面,智能体在无限大的世界中通过局部观测寻找资源,面临探索的困难。

另一方面,复杂任务通常需要很长的执行时间,要求完成许多隐含子任务。

例如,制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务,需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励,难以通过稀疏奖励学会任务。

目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集,面临诸多研究困难:

  • 此前OpenAI 的 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下,用强化学习训练 Minecraft 的任务较为低效;
  • NVIDIA 的 MineAgent 研究使用 PPO 算法仅能完成若干个简单任务;
  • DeepMind 的 Dreamer-v3 基于模型的 SOTA 方法,在简化环境模拟器的情况下,也需要采样 1000 万步学会获得原石。

Plan4MC 如何应对以上挑战?

Plan4MC 采用底层学技能 + 高层做规划的分层架构:

1. 底层:细粒度基础技能学习(核心创新)

把 Minecraft 所有行为拆为三类原子技能,用 RL + 内在奖励训练,无需人类示范

  • Finding-skill(探索技能): 寻找类技能使用分层的策略,其中上层策略负责给出目标位置、增大探索范围,下层策略负责到达目标位置。
  • Manipulation-skill(操作技能): 挖矿、打怪、放置方块等,用 MineCLIP + 距离 / 攻击 / 深度等内在奖励训练。
  • Crafting-skill(合成技能): 工作台 / 熔炉合成,直接结构化定义,无需训练。

image.png

2. 高层:LLM 辅助技能图 + 交互式搜索规划

  • 用 GPT-3.5 生成技能依赖图:明确技能的消耗、需求、产出关系
  • 深度优先搜索(DFS) 在技能图上交互式规划:执行一步→更新状态→重规划,容错性强
  • 相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法,Plan4MC 能够有效避免大语言模型规划过程中的错误。

image.png

image.png

参考

(29 封私信 / 80 条消息) Plan4MC论文笔记 LLM+强化学习 (Skill Reinforcement Learning and Planning for Open-World Long-Horizon Tasks) - 知乎