MineWorld简介
MineWorld是由微软研究院开发的开源实时交互式世界模型,基于《我的世界》(Minecraft)环境构建。该模型采用视觉-动作自回归Transformer架构,将游戏场景和玩家动作转化为离散的token ID,并通过预测下一个token进行训练。MineWorld引入了并行解码算法,实现了每秒4至7帧的生成速度,具备较高的视频质量、可控性和推理效率,优于现有模型如Oasis。
MineWorld的核心功能
- 高生成质量:基于视觉-动作自回归Transformer架构,MineWorld能够生成连贯且高保真的游戏画面。
- 强可控性:模型具备精确的动作跟随能力,能根据输入指令生成对应的游戏场景。
- 快速推理速度:借助并行解码算法,模型可实现每秒4至7帧的生成速度,满足实时交互需求。
- 游戏代理能力:在训练过程中同时预测游戏状态与动作,可作为独立游戏代理运行。
- 实时交互支持:用户可通过Web演示或本地部署与模型进行互动,包括初始帧选择、相机控制及动作执行。
MineWorld的技术原理
- 视觉-动作自回归 Transformer:MineWorld将游戏场景和玩家动作转换为离散的token序列,实现视觉与动作的联合建模。具体包括:
- 图像标记器(Visual Tokenizer):使用VQ-VAE架构,将游戏画面分割为离散的视觉标记,经过微调后实现高质量图像重建。
- 动作标记器(Action Tokenizer):将连续动作量化为离散标记,不同动作类别由唯一标记表示。
- Transformer 解码器:基于LLaMA架构,接收交错拼接的视觉与动作标记序列,通过预测下一个标记进行训练。
- 并行解码算法:利用图像标记间的空间依赖性,同时预测多帧中的冗余标记,显著提升生成效率。
- 训练与推理:模型通过预测下一个token进行训练,学习游戏状态演变规律;在推理阶段,根据当前状态和动作生成后续场景。
- 评估体系:MineWorld引入新评估指标,用于衡量生成场景的视觉质量与动作跟随准确性。
MineWorld项目资源
- Github仓库:https://github.com/microsoft/MineWorld
- HuggingFace模型库:https://huggingface.co/microsoft/mineworld
- arXiv技术论文:https://arxiv.org/pdf/2504.08388
MineWorld的应用场景
- 具身智能研究:提供高保真、可交互的虚拟环境,适用于智能体任务学习,如导航与探索。
- 强化学习训练:凭借高生成质量和实时交互能力,适合作为强化学习的数据生成平台。
- 游戏代理开发:具备预测游戏状态与动作的能力,可用于开发自主游戏代理。
- 实时交互模拟:支持玩家与模型进行实时互动,提升沉浸感。
- 视频生成与编辑:可生成高质量、连贯的游戏视频,适用于内容创作。
发表评论 取消回复