可分为以下四类
表格
| 方法 | 所属流派 | 是否分层 RL | 是否世界模型 | 是否多模态 | 规划方式 | 执行方式 | 是否环境建模 | 核心依赖 |
|---|---|---|---|---|---|---|---|---|
| Plan4MC | 分层 RL + 技能分解 | ✅ 是 | ❌ 否 | ✅ 弱多模态(MineCLIP) | LLM 技能图 + DFS | 底层 RL 技能 | ❌ 不建模 | 内在奖励 + 技能学习 |
| Voyager | LLM 规划 + 代码执行 | ❌ 否 | ❌ 否 | ❌ 纯文本 | GPT-4 迭代生成 | JS 代码技能库 | ❌ 不建模 | GPT-4 + 技能库 |
| ODYSSEY | LLM 规划 + 技能库 | ❌ 否 | ❌ 否 | ✅ 文本为主 + 视觉 | 领域 LLM 规划 | 预制技能调用 | ❌ 不建模 | 预制技能 + 微调 LLM |
| Jarvis-1 | 多模态记忆规划 | ❌ 否 | ❌ 否 | ✅ 强多模态(图像 + 文本) | 多模态交互式 | 低级别动作 | ❌ 不建模 | 多模态记忆 + RAG |
| Optimus-1 | 知识图谱 + 多模态记忆 | ❌ 否 | ❌ 否 | ✅ 强多模态 | 逆向知识图谱规划 | 低级别动作 | ❌ 不建模 | HDKG + 成败经验池 |
| BAR | 逆向推理规划 | ❌ 否 | ❌ 否 | ❌ 纯文本符号 | 逆向递归分解 | API / 技能调用 | ❌ 不建模 | LLM 逆向推理 |
| DreamerV4 | 世界模型 + 想象学习 | ❌ 否 | ✅ 是(核心) | ✅ 图像多模态 | 世界模型 Rollout | 低级别动作 | ✅ 学习环境动力学 | 世界模型 + Shortcut Forcing |
| EvoAgent | 持续世界模型 | ❌ 否 | ✅ 是(持续更新) | ✅ 多模态 | 记忆驱动 + WM 引导 | 低级别动作 | ✅ 持续学习环境 | 持续世界模型 + 课程学习 |