微软黑科技让《我的世界》自主探索!MineWorld:微软开源实时交互式世界模型,实时生成游戏画面!

22 阅读3分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎮 「微软黑科技让《我的世界》开口说话!开源模型实时生成游戏画面,AI代理自主探索」

大家好,我是蚝油菜花。你是否也经历过这些游戏开发者的痛苦时刻——

  • 👉 想测试新玩法却要手动搭建整个场景,耗时耗力
  • 👉 AI代理训练时环境反馈延迟,学习效率低下
  • 👉 生成游戏画面总是卡顿,完全达不到实时交互要求...

今天要解密的 MineWorld ,正在重新定义游戏AI的可能性!这个微软研究院的重磅开源项目:

  • 所见即所得:输入动作指令,4-7帧/秒实时生成高清游戏画面
  • 智能体自主决策:模型能同时预测游戏状态和动作,实现真正自主探索
  • 工业级精度:在动作跟随测试中表现远超同类模型Oasis

已有团队用它开发全新游戏机制,接下来就带你拆解这套「游戏引擎+AI」的终极融合方案!

MineWorld 是什么

MineWorld

MineWorld是微软研究院基于《我的世界》游戏开发的实时交互式世界模型,采用创新的视觉-动作自回归Transformer架构。该模型将游戏场景和玩家动作转化为离散的token序列,通过下一个token预测进行训练,实现了游戏环境的高保真模拟。

模型最大的突破在于开发了并行解码算法,使生成速度达到每秒4-7帧,首次实现了高质量游戏画面的实时交互。相比传统方法,MineWorld在视频质量、动作跟随精度和响应速度三个维度都有显著提升,为游戏AI和具身智能研究提供了全新工具。

MineWorld 的主要功能

  • 高生成质量:基于视觉-动作自回归Transformer,生成连贯、高保真的游戏帧序列
  • 强可控性:通过动作跟随基准测试,能精确响应各类游戏操作指令
  • 快速推理:采用Diagonal Decoding并行算法,实现4-7FPS的实时生成速度
  • 自主代理:可同时预测游戏状态和动作,作为独立AI代理运行
  • 多模态交互:支持通过网页演示或本地部署进行实时人机互动

MineWorld 的技术原理

  • 视觉标记器:采用VQ-VAE架构将游戏画面离散化为高质量视觉token
  • 动作标记器:将连续操作(如视角转动)和离散动作(如跳跃)量化为动作token
  • 自回归Transformer:基于LLaMA架构建模视觉与动作token的联合分布
  • 并行解码算法:利用空间冗余性同时预测多个token,大幅提升生成速度
  • 多任务训练:通过下一个token预测同时学习环境动态和动作策略

如何运行 MineWorld

1. 环境准备

git clone https://github.com/microsoft/mineworld.git
cd mineworld
conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt

2. 启动Web演示

python mineworld.py --scene "path/to/scene.mp4" \
    --model_ckpt "path/to/ckpt" \
    --config "path/to/config"

MineWorld-demo

3. 本地推理

python inference.py \
    --data_root "/path/to/validation/dataset" \
    --model_ckpt "path/to/ckpt" \
    --config "path/to/config" \
    --demo_num 1 \
    --frames 15 \
    --accelerate-algo 'naive' \
    --top_p 0.8 \
    --output_dir "path/to/output"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦