Plan4MC(23年3月)(对比DreamerV3)

不会背八股

2026-03-19 20 阅读2分钟

现状

一方面，智能体在无限大的世界中通过局部观测寻找资源，面临探索的困难。

另一方面，复杂任务通常需要很长的执行时间，要求完成许多隐含子任务。

例如，制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务，需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励，难以通过稀疏奖励学会任务。

目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集，面临诸多研究困难：

此前OpenAI 的 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下，用强化学习训练 Minecraft 的任务较为低效；
NVIDIA 的 MineAgent 研究使用 PPO 算法仅能完成若干个简单任务；
DeepMind 的 Dreamer-v3 基于模型的 SOTA 方法，在简化环境模拟器的情况下，也需要采样 1000 万步学会获得原石。

Plan4MC 如何应对以上挑战？

Plan4MC 采用底层学技能 + 高层做规划的分层架构：

1. 底层：细粒度基础技能学习（核心创新）

把 Minecraft 所有行为拆为三类原子技能，用 RL + 内在奖励训练，无需人类示范：

Finding-skill（探索技能）： 寻找类技能使用分层的策略，其中上层策略负责给出目标位置、增大探索范围，下层策略负责到达目标位置。
Manipulation-skill（操作技能）： 挖矿、打怪、放置方块等，用 MineCLIP + 距离 / 攻击 / 深度等内在奖励训练。
Crafting-skill（合成技能）： 工作台 / 熔炉合成，直接结构化定义，无需训练。

2. 高层：LLM 辅助技能图 + 交互式搜索规划

用 GPT-3.5 生成技能依赖图：明确技能的消耗、需求、产出关系
用深度优先搜索（DFS） 在技能图上交互式规划：执行一步→更新状态→重规划，容错性强
相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法，Plan4MC 能够有效避免大语言模型规划过程中的错误。

参考

(29 封私信 / 80 条消息) Plan4MC论文笔记 LLM+强化学习 (Skill Reinforcement Learning and Planning for Open-World Long-Horizon Tasks) - 知乎