ODYSSEY(24年7月)(基于Voyager): Empowering Minecraft Agents with Open-World Skills

背景

大型语言模型 (LLM) 的突破使智能体能够在《我的世界》中执行基础任务，例如遵循“科技树”来收集木材、制作工具，并最终找到钻石。然而，将此视为精通，就好比学会几个实用短语就声称自己语言流利。这些智能体仍被局限在僵化的编程路径中——无法体现出《我的世界》独有的创造性、自发性和多样化玩法。它们在没有明确目标的情况下，难以进行长期规划、实时适应以及开放式探索。

此外，像 Voyager 这样的前沿智能体严重依赖诸如 GPT‑4 之类的强大专有模型，这些模型既昂贵又难以为众多研究者所用。这种限制为实验与进步设置了瓶颈。

2024.7月来自浙江大学的一项新研究，题为 “ODYSSEY: 赋予 Minecraft 智能体开放世界技能” , 提出了一个解决方案。该研究引入了一个统一框架，为智能体配备了丰富的可复用技能库、基于《我的世界》数据微调的领域专用知识，以及一个用于评估开放世界能力的稳健基准。ODYSSEY 的目标不仅仅是找到钻石，而是让智能体能够真正自主地玩游戏。

模型微调+交互式智能体架构+能力评估基准

从零开始学习的问题

要建造一座房子——但在动工之前，你得用原材料先发明锤子、锯子和螺丝刀。它们从最基本的输入开始——相当于键盘敲击与鼠标移动——必须完全从零学习每一项技能。这种方式效率极低，限制了它们完成复杂或创造性任务的能力。既然“制作木镐”早已是一个被解决的问题，为何还要耗费数千次迭代去重新发现？

ODYSSEY 提出了一种更优思路: 从一开始就为智能体提供一个工具箱 。

第一部分: 开放世界技能库——智能体的工具套件

研究人员无需再下达诸如“向前移动”或“点击方块”这样的底层指令，而是可直接促使智能体执行结构化操作，如 mineDiamond() 或 craftIronPickaxe()。

基础技能与复合技能

基础技能: 这些是构建基础。该库包含 40 个基于 Mineflayer JavaScript API 的基础技能——其中 32 个是操作性技能 (例如 mine(block)、craft(item)) ，而最关键的还有 8 个新空间技能 , 允许智能体推理环境状态 (例如 findSuitablePosition()、checkAdjacentBlock()) 。在缺乏视觉反馈的文本环境中，空间推理至关重要。
复合技能: 基于基础技能构建而成的 183 个复合技能，涵盖复杂的多步操作，例如 mineDiamond 或 craftIronPickaxe。该库还支持一种递归执行机制 , 能够自动验证前置条件。如果智能体要执行 mineDiamond 而缺少铁镐，它会递归调用 craftIronPickaxe。这种内部逻辑能自动组织依赖关系，无需 LLM 手动规划每一步。

为提高系统效率，每个技能均带有文本描述，通过 Sentence Transformer 模型编码为语义向量。当智能体接收到一个目标时，它会对目标进行编码，并检索语义最相关的技能。

第二部分: 用 MineMA 打造更强的大脑

到目前为止，表现最佳的《我的世界》智能体往往由专有 LLM 驱动。ODYSSEY 致力于在开源模型中实现相当性能。为此，团队通过三阶段管线将 Meta 的 LLaMA‑3 转化为一个领域特化的《我的世界》专家模型，命名为 MineMA 。

数据集生成: 研究人员从《我的世界》Wiki 抓取并清洗数千个高信息量页面，并利用 GPT‑3.5‑Turbo 创建了一个包含超过 39 万 条目的庞大问答数据集。每条数据涉及 crafting 配方、生物群系特性、怪物行为与探索策略等主题，构成了游戏世界的完整知识体系。
模型微调: 采用 LoRA (低秩自适应) ——一种数据高效的模型更新方法，在自建数据集上对 LLaMA‑3 进行微调，生成两个定制模型——MineMA‑8B 与 MineMA‑70B 。它们具备深入的《我的世界》专属推理能力，同时保持轻量和开源。
模型评估: 传统 NLP 指标无法衡量游戏推理能力。为此，研究人员利用 GPT‑4 构建两套多项选择题数据集——一个基于主题，一个基于 Wiki——用于测试事实性与程序性理解。MineMA 模型在两项测试中都显著优于 LLaMA‑3 基线。

第三部分: 规划器‑执行器‑评论家循环

强大的技能库与领域专精模型只是部分要素。ODYSSEY 智能体将两者结合成一个规划器‑执行器‑评论家 (Planner‑Actor‑Critic) 架构，模拟人类的规划、执行与反思循环。

第四部分: 新基准评估

以往基准往往聚焦于ObtainDiamond 任务——这是一个狭窄线性的目标，无法体现开放世界的复杂性。ODYSSEY 提出了新的 智能体能力基准 (Agent Capability Benchmark) , 将评估扩展到三大维度: 战略规划、即时应变和自主探索。

实验

长期规划

在战斗类 LPT 中，经过微调的 MineMA‑8B 模型在成功率与时间效率上均超越了基础 LLaMA‑3 以及一个由 GPT‑4‑mini 驱动的 Voyager 复现版。

动态即时规划

在实时农耕与生产任务中，更大的 MineMA‑70B 模型超越所有开源替代模型——包括 Baichuan‑2‑7B 与 Qwen‑2‑7B。其成功率与响应速度接近 GPT‑4 级表现，验证了《我的世界》专项微调的显著成效。

一个对比图表显示在动态即时规划任务中多个模型的表现，MineMA‑70B 在开源 LLM 中处于领先地位。

自主探索

在自由探索模式下，ODYSSEY 的 MineMA‑8B 智能体发现的独特物品数量远超 Voyager、ReAct、AutoGPT 和 DEPS 框架。从生铁到稀有花朵，其物品多样化展现了卓越的探索性与创造力。

图表对比了 ODYSSEY 与各基准模型的探索结果。ODYSSEY 智能体 (红色) 实现了最丰富、最高效的探索。

Odyssey VS Optimus-3

1. 核心目标与定位

Odyssey (2024): 侧重于为 LLM 智能体提供基础设施和技能库 。其核心目标是让智能体摆脱从零开始学习底层动作（如移动、挖掘）的负担，转而通过一个包含 183 个组合技能的“技能库”来解决复杂的开放世界任务。它同时提供了一个全新的能力基准测试（Benchmark）。
Optimus-3 (2025): 侧重于认知架构的统一 。它旨在模拟人类的“双系统理论”（Dual-Process Theory），将“快速、直觉”的反射性动作（系统 1）与“慢速、理性”的逻辑推理（系统 2）有机结合在一个统一的模型中，解决智能体在动态环境下表现出的认知碎片化问题。

2. 相同点

环境背景： 两者都以 Minecraft 作为实验基准，利用其高自由度、多模态和长程规划的特性来评估通用人工智能（AGI）的潜力。
模型基础： 两者都基于大规模预训练语言模型（LLM/MLLM）。Odyssey 使用了 LLaMA-3 ，而 Optimus-3 则采用了多模态大语言模型（MLLM）作为核心。
层级架构： 两者都采用了任务分解的思想。Odyssey 使用 Planner-Actor-Critic 架构；Optimus-3 则通过系统 2 进行规划和反思，系统 1 执行具体动作。

3. 不同点

维度	Odyssey	Optimus-3
架构创新	技能驱动：依靠包含 40 个原子技能和 183 个组合技能的外部代码库。	架构驱动：设计了 Dual-Router Aligned MoE（双路由对齐混合专家架构），包含任务路由和层路由。
推理深度	依靠 LLM 的 Planning 步骤和递归技能检查。	引入了动态计算分配。系统 1 走“快速路径”（跳过部分网络层），系统 2 走“深度路径”进行缜密推理。
训练算法	使用 LoRA 对 LLaMA-3 进行指令微调（SFT），训练数据源自 Minecraft Wiki 。	提出了 DGRPO（双粒度推理感知策略优化），通过强化学习（RL）实现过程与结果的双重监督。
数据生成	将 Wiki 知识转化为 390k+ 的问答对。	提出自动化流水线，从原始交互轨迹（系统 1）中合成高质量的推理痕迹（系统 2）。