❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎮 「微软黑科技让《我的世界》开口说话!开源模型实时生成游戏画面,AI代理自主探索」
大家好,我是蚝油菜花。你是否也经历过这些游戏开发者的痛苦时刻——
- 👉 想测试新玩法却要手动搭建整个场景,耗时耗力
- 👉 AI代理训练时环境反馈延迟,学习效率低下
- 👉 生成游戏画面总是卡顿,完全达不到实时交互要求...
今天要解密的 MineWorld ,正在重新定义游戏AI的可能性!这个微软研究院的重磅开源项目:
- ✅ 所见即所得:输入动作指令,4-7帧/秒实时生成高清游戏画面
- ✅ 智能体自主决策:模型能同时预测游戏状态和动作,实现真正自主探索
- ✅ 工业级精度:在动作跟随测试中表现远超同类模型Oasis
已有团队用它开发全新游戏机制,接下来就带你拆解这套「游戏引擎+AI」的终极融合方案!
MineWorld 是什么
MineWorld是微软研究院基于《我的世界》游戏开发的实时交互式世界模型,采用创新的视觉-动作自回归Transformer架构。该模型将游戏场景和玩家动作转化为离散的token序列,通过下一个token预测进行训练,实现了游戏环境的高保真模拟。
模型最大的突破在于开发了并行解码算法,使生成速度达到每秒4-7帧,首次实现了高质量游戏画面的实时交互。相比传统方法,MineWorld在视频质量、动作跟随精度和响应速度三个维度都有显著提升,为游戏AI和具身智能研究提供了全新工具。
MineWorld 的主要功能
- 高生成质量:基于视觉-动作自回归Transformer,生成连贯、高保真的游戏帧序列
- 强可控性:通过动作跟随基准测试,能精确响应各类游戏操作指令
- 快速推理:采用Diagonal Decoding并行算法,实现4-7FPS的实时生成速度
- 自主代理:可同时预测游戏状态和动作,作为独立AI代理运行
- 多模态交互:支持通过网页演示或本地部署进行实时人机互动
MineWorld 的技术原理
- 视觉标记器:采用VQ-VAE架构将游戏画面离散化为高质量视觉token
- 动作标记器:将连续操作(如视角转动)和离散动作(如跳跃)量化为动作token
- 自回归Transformer:基于LLaMA架构建模视觉与动作token的联合分布
- 并行解码算法:利用空间冗余性同时预测多个token,大幅提升生成速度
- 多任务训练:通过下一个token预测同时学习环境动态和动作策略
如何运行 MineWorld
1. 环境准备
git clone https://github.com/microsoft/mineworld.git
cd mineworld
conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
2. 启动Web演示
python mineworld.py --scene "path/to/scene.mp4" \
--model_ckpt "path/to/ckpt" \
--config "path/to/config"
3. 本地推理
python inference.py \
--data_root "/path/to/validation/dataset" \
--model_ckpt "path/to/ckpt" \
--config "path/to/config" \
--demo_num 1 \
--frames 15 \
--accelerate-algo 'naive' \
--top_p 0.8 \
--output_dir "path/to/output"
资源
- GitHub 仓库:github.com/microsoft/M…
- HuggingFace 仓库:huggingface.co/microsoft/m…
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦