ODYSSEY: Empowering Minecraft Agents with Open-World Skills

0 阅读7分钟

背景

大型语言模型 (LLM) 的突破使智能体能够在《我的世界》中执行基础任务,例如遵循“科技树”来收集木材、制作工具,并最终找到钻石。然而,将此视为精通,就好比学会几个实用短语就声称自己语言流利。这些智能体仍被局限在僵化的编程路径中——无法体现出《我的世界》独有的创造性、自发性和多样化玩法。它们在没有明确目标的情况下,难以进行长期规划、实时适应以及开放式探索。

此外,像 Voyager 这样的前沿智能体严重依赖诸如 GPT‑4 之类的强大专有模型,这些模型既昂贵又难以为众多研究者所用。这种限制为实验与进步设置了瓶颈。

2024.7月来自浙江大学的一项新研究,题为  “ODYSSEY: 赋予 Minecraft 智能体开放世界技能”  , 提出了一个解决方案。该研究引入了一个统一框架,为智能体配备了丰富的可复用技能库、基于《我的世界》数据微调的领域专用知识,以及一个用于评估开放世界能力的稳健基准。ODYSSEY 的目标不仅仅是找到钻石,而是让智能体能够真正自主地玩游戏

image.png 模型微调+交互式智能体架构+能力评估基准

从零开始学习的问题

要建造一座房子——但在动工之前,你得用原材料先发明锤子、锯子和螺丝刀。它们从最基本的输入开始——相当于键盘敲击与鼠标移动——必须完全从零学习每一项技能。这种方式效率极低,限制了它们完成复杂或创造性任务的能力。既然“制作木镐”早已是一个被解决的问题,为何还要耗费数千次迭代去重新发现?

ODYSSEY 提出了一种更优思路: 从一开始就为智能体提供一个工具箱 。

第一部分: 开放世界技能库——智能体的工具套件

研究人员无需再下达诸如“向前移动”或“点击方块”这样的底层指令,而是可直接促使智能体执行结构化操作,如 mineDiamond() 或 craftIronPickaxe()

基础技能与复合技能

  1. 基础技能:  这些是构建基础。该库包含 40 个基于 Mineflayer JavaScript API 的基础技能——其中 32 个是操作性技能 (例如 mine(block)craft(item)) ,而最关键的还有 8 个新空间技能 , 允许智能体推理环境状态 (例如 findSuitablePosition()checkAdjacentBlock()) 。在缺乏视觉反馈的文本环境中,空间推理至关重要。
  2. 复合技能:  基于基础技能构建而成的 183 个复合技能,涵盖复杂的多步操作,例如 mineDiamond 或 craftIronPickaxe。该库还支持一种递归执行机制 , 能够自动验证前置条件。如果智能体要执行 mineDiamond 而缺少铁镐,它会递归调用 craftIronPickaxe。这种内部逻辑能自动组织依赖关系,无需 LLM 手动规划每一步。

image.png

为提高系统效率,每个技能均带有文本描述,通过 Sentence Transformer 模型编码为语义向量。当智能体接收到一个目标时,它会对目标进行编码,并检索语义最相关的技能。

第二部分: 用 MineMA 打造更强的大脑

到目前为止,表现最佳的《我的世界》智能体往往由专有 LLM 驱动。ODYSSEY 致力于在开源模型中实现相当性能。为此,团队通过三阶段管线将 Meta 的 LLaMA‑3 转化为一个领域特化的《我的世界》专家模型,命名为 MineMA 。

image.png

  1. 数据集生成:  研究人员从《我的世界》Wiki 抓取并清洗数千个高信息量页面,并利用 GPT‑3.5‑Turbo 创建了一个包含超过 39 万 条目的庞大问答数据集。每条数据涉及 crafting 配方、生物群系特性、怪物行为与探索策略等主题,构成了游戏世界的完整知识体系。
  2. 模型微调:  采用 LoRA (低秩自适应) ——一种数据高效的模型更新方法,在自建数据集上对 LLaMA‑3 进行微调,生成两个定制模型——MineMA‑8B 与 MineMA‑70B 。 它们具备深入的《我的世界》专属推理能力,同时保持轻量和开源。
  3. 模型评估:  传统 NLP 指标无法衡量游戏推理能力。为此,研究人员利用 GPT‑4 构建两套多项选择题数据集——一个基于主题,一个基于 Wiki——用于测试事实性与程序性理解。MineMA 模型在两项测试中都显著优于 LLaMA‑3 基线。

第三部分: 规划器‑执行器‑评论家循环

强大的技能库与领域专精模型只是部分要素。ODYSSEY 智能体将两者结合成一个规划器‑执行器‑评论家 (Planner‑Actor‑Critic)  架构,模拟人类的规划、执行与反思循环。

image.png

第四部分: 新基准评估

以往基准往往聚焦于ObtainDiamond 任务——这是一个狭窄线性的目标,无法体现开放世界的复杂性。ODYSSEY 提出了新的 智能体能力基准 (Agent Capability Benchmark)  , 将评估扩展到三大维度: 战略规划、即时应变和自主探索。

image.png

实验

image.png

长期规划

在战斗类 LPT 中,经过微调的 MineMA‑8B 模型在成功率与时间效率上均超越了基础 LLaMA‑3 以及一个由 GPT‑4‑mini 驱动的 Voyager 复现版。

image.png

动态即时规划

在实时农耕与生产任务中,更大的 MineMA‑70B 模型超越所有开源替代模型——包括 Baichuan‑2‑7B 与 Qwen‑2‑7B。其成功率与响应速度接近 GPT‑4 级表现,验证了《我的世界》专项微调的显著成效。

一个对比图表显示在动态即时规划任务中多个模型的表现,MineMA‑70B 在开源 LLM 中处于领先地位。

自主探索

在自由探索模式下,ODYSSEY 的 MineMA‑8B 智能体发现的独特物品数量远超 Voyager、ReAct、AutoGPT 和 DEPS 框架。从生铁到稀有花朵,其物品多样化展现了卓越的探索性与创造力。

图表对比了 ODYSSEY 与各基准模型的探索结果。ODYSSEY 智能体 (红色) 实现了最丰富、最高效的探索。

Odyssey VS Optimus-3

1. 核心目标与定位

  • Odyssey (2024): 侧重于为 LLM 智能体提供基础设施和技能库 。其核心目标是让智能体摆脱从零开始学习底层动作(如移动、挖掘)的负担,转而通过一个包含 183 个组合技能的“技能库”来解决复杂的开放世界任务 。它同时提供了一个全新的能力基准测试(Benchmark) 。
  • Optimus-3 (2025): 侧重于认知架构的统一 。它旨在模拟人类的“双系统理论”(Dual-Process Theory),将“快速、直觉”的反射性动作(系统 1)与“慢速、理性”的逻辑推理(系统 2)有机结合在一个统一的模型中,解决智能体在动态环境下表现出的认知碎片化问题 。

2. 相同点

  • 环境背景: 两者都以 Minecraft 作为实验基准,利用其高自由度、多模态和长程规划的特性来评估通用人工智能(AGI)的潜力 。
  • 模型基础: 两者都基于大规模预训练语言模型(LLM/MLLM)。Odyssey 使用了 LLaMA-3 ,而 Optimus-3 则采用了多模态大语言模型(MLLM)作为核心 。
  • 层级架构: 两者都采用了任务分解的思想。Odyssey 使用 Planner-Actor-Critic 架构 ;Optimus-3 则通过系统 2 进行规划和反思,系统 1 执行具体动作 。

3. 不同点

维度OdysseyOptimus-3
架构创新技能驱动: 依靠包含 40 个原子技能和 183 个组合技能的外部代码库 。架构驱动: 设计了 Dual-Router Aligned MoE(双路由对齐混合专家架构),包含任务路由和层路由 。
推理深度依靠 LLM 的 Planning 步骤和递归技能检查 。引入了动态计算分配。系统 1 走“快速路径”(跳过部分网络层),系统 2 走“深度路径”进行缜密推理 。
训练算法使用 LoRA 对 LLaMA-3 进行指令微调(SFT),训练数据源自 Minecraft Wiki 。提出了 DGRPO(双粒度推理感知策略优化),通过强化学习(RL)实现过程与结果的双重监督 。
数据生成将 Wiki 知识转化为 390k+ 的问答对 。提出自动化流水线,从原始交互轨迹(系统 1)中合成高质量的推理痕迹(系统 2) 。