现状
一方面,智能体在无限大的世界中通过局部观测寻找资源,面临探索的困难。
另一方面,复杂任务通常需要很长的执行时间,要求完成许多隐含子任务。
例如,制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务,需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励,难以通过稀疏奖励学会任务。
目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集,面临诸多研究困难:
- 此前OpenAI 的 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下,用强化学习训练 Minecraft 的任务较为低效;
- NVIDIA 的 MineAgent 研究使用 PPO 算法仅能完成若干个简单任务;
- DeepMind 的 Dreamer-v3 基于模型的 SOTA 方法,在简化环境模拟器的情况下,也需要采样 1000 万步学会获得原石。
Plan4MC 如何应对以上挑战?
Plan4MC 采用底层学技能 + 高层做规划的分层架构:
1. 底层:细粒度基础技能学习(核心创新)
把 Minecraft 所有行为拆为三类原子技能,用 RL + 内在奖励训练,无需人类示范:
- Finding-skill(探索技能): 寻找类技能使用分层的策略,其中上层策略负责给出目标位置、增大探索范围,下层策略负责到达目标位置。
- Manipulation-skill(操作技能): 挖矿、打怪、放置方块等,用 MineCLIP + 距离 / 攻击 / 深度等内在奖励训练。
- Crafting-skill(合成技能): 工作台 / 熔炉合成,直接结构化定义,无需训练。
2. 高层:LLM 辅助技能图 + 交互式搜索规划
- 用 GPT-3.5 生成技能依赖图:明确技能的消耗、需求、产出关系
- 用深度优先搜索(DFS) 在技能图上交互式规划:执行一步→更新状态→重规划,容错性强
- 相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法,Plan4MC 能够有效避免大语言模型规划过程中的错误。