MineWorld简介

MineWorld是由微软研究院开发的开源实时交互式世界模型,基于《我的世界》(Minecraft)环境构建。该模型采用视觉-动作自回归Transformer架构,将游戏场景和玩家动作转化为离散的token ID,并通过预测下一个token进行训练。MineWorld引入了并行解码算法,实现了每秒4至7帧的生成速度,具备较高的视频质量、可控性和推理效率,优于现有模型如Oasis。

MineWorld的核心功能

  • 高生成质量:基于视觉-动作自回归Transformer架构,MineWorld能够生成连贯且高保真的游戏画面。
  • 强可控性:模型具备精确的动作跟随能力,能根据输入指令生成对应的游戏场景。
  • 快速推理速度:借助并行解码算法,模型可实现每秒4至7帧的生成速度,满足实时交互需求。
  • 游戏代理能力:在训练过程中同时预测游戏状态与动作,可作为独立游戏代理运行。
  • 实时交互支持:用户可通过Web演示或本地部署与模型进行互动,包括初始帧选择、相机控制及动作执行。

MineWorld的技术原理

  • 视觉-动作自回归 Transformer:MineWorld将游戏场景和玩家动作转换为离散的token序列,实现视觉与动作的联合建模。具体包括:
    • 图像标记器(Visual Tokenizer):使用VQ-VAE架构,将游戏画面分割为离散的视觉标记,经过微调后实现高质量图像重建。
    • 动作标记器(Action Tokenizer):将连续动作量化为离散标记,不同动作类别由唯一标记表示。
    • Transformer 解码器:基于LLaMA架构,接收交错拼接的视觉与动作标记序列,通过预测下一个标记进行训练。
  • 并行解码算法:利用图像标记间的空间依赖性,同时预测多帧中的冗余标记,显著提升生成效率。
  • 训练与推理:模型通过预测下一个token进行训练,学习游戏状态演变规律;在推理阶段,根据当前状态和动作生成后续场景。
  • 评估体系:MineWorld引入新评估指标,用于衡量生成场景的视觉质量与动作跟随准确性。

MineWorld项目资源

MineWorld的应用场景

  • 具身智能研究:提供高保真、可交互的虚拟环境,适用于智能体任务学习,如导航与探索。
  • 强化学习训练:凭借高生成质量和实时交互能力,适合作为强化学习的数据生成平台。
  • 游戏代理开发:具备预测游戏状态与动作的能力,可用于开发自主游戏代理。
  • 实时交互模拟:支持玩家与模型进行实时互动,提升沉浸感。
  • 视频生成与编辑:可生成高质量、连贯的游戏视频,适用于内容创作。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部