MineWorld

简介：MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI小编 625 阅读 0 评论 93 点赞

项目地址

MineWorld简介

MineWorld是由微软研究院开发的开源实时交互式世界模型，基于《我的世界》（Minecraft）环境构建。该模型采用视觉-动作自回归Transformer架构，将游戏场景和玩家动作转化为离散的token ID，并通过预测下一个token进行训练。MineWorld引入了并行解码算法，实现了每秒4至7帧的生成速度，具备较高的视频质量、可控性和推理效率，优于现有模型如Oasis。

MineWorld的核心功能

高生成质量：基于视觉-动作自回归Transformer架构，MineWorld能够生成连贯且高保真的游戏画面。
强可控性：模型具备精确的动作跟随能力，能根据输入指令生成对应的游戏场景。
快速推理速度：借助并行解码算法，模型可实现每秒4至7帧的生成速度，满足实时交互需求。
游戏代理能力：在训练过程中同时预测游戏状态与动作，可作为独立游戏代理运行。
实时交互支持：用户可通过Web演示或本地部署与模型进行互动，包括初始帧选择、相机控制及动作执行。

MineWorld的技术原理

视觉-动作自回归 Transformer：MineWorld将游戏场景和玩家动作转换为离散的token序列，实现视觉与动作的联合建模。具体包括：
- 图像标记器（Visual Tokenizer）：使用VQ-VAE架构，将游戏画面分割为离散的视觉标记，经过微调后实现高质量图像重建。
- 动作标记器（Action Tokenizer）：将连续动作量化为离散标记，不同动作类别由唯一标记表示。
- Transformer 解码器：基于LLaMA架构，接收交错拼接的视觉与动作标记序列，通过预测下一个标记进行训练。
并行解码算法：利用图像标记间的空间依赖性，同时预测多帧中的冗余标记，显著提升生成效率。
训练与推理：模型通过预测下一个token进行训练，学习游戏状态演变规律；在推理阶段，根据当前状态和动作生成后续场景。
评估体系：MineWorld引入新评估指标，用于衡量生成场景的视觉质量与动作跟随准确性。

MineWorld项目资源

Github仓库：https://github.com/microsoft/MineWorld
HuggingFace模型库：https://huggingface.co/microsoft/mineworld
arXiv技术论文：https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

具身智能研究：提供高保真、可交互的虚拟环境，适用于智能体任务学习，如导航与探索。
强化学习训练：凭借高生成质量和实时交互能力，适合作为强化学习的数据生成平台。
游戏代理开发：具备预测游戏状态与动作的能力，可用于开发自主游戏代理。
实时交互模拟：支持玩家与模型进行实时互动，提升沉浸感。
视频生成与编辑：可生成高质量、连贯的游戏视频，适用于内容创作。

本文分类：AI项目与工具
本文标签：AI模型游戏AI 强化学习交互式模拟视觉生成自然语言处理机器学习深度学习虚拟环境具身智能
浏览次数：625 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8111.html

评论列表共有 0 条评论

暂无评论