EnerVerse简介

EnerVerse是由智元机器人团队研发的首个机器人4D世界模型,旨在通过生成未来的具身空间来支持机器人完成复杂任务。该模型采用自回归扩散架构,并结合稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),有效提升了4D生成能力和动作规划性能。实验结果显示,EnerVerse在机器人动作规划任务中表现出色,达到当前领先水平。目前,项目主页和相关论文已发布,模型与数据集也将逐步开源。

EnerVerse核心功能

  • 未来空间生成:基于自回归扩散模型,EnerVerse可生成未来具身空间,辅助机器人在任务指引和实时观测基础上进行动作规划。
  • 高效动作规划:模型在生成网络下游引入由多层Transformer组成的Diffusion策略头,能够在逆扩散初期输出动作序列,提升动作预测的实时性。

EnerVerse技术原理

  • 自回归扩散模型
    • 逐块生成:EnerVerse采用逐块生成的自回归扩散模型,逐步构建每个时刻的空间信息,使机器人能够整合多个时间点的环境数据。
    • 扩散模型架构:基于时空注意力的UNet结构,每个空间块内部通过卷积与双向注意力建模,块间通过单向因果逻辑保持时间一致性。
  • 稀疏记忆机制(Sparse Memory)
    • 记忆管理:通过高比例随机掩码处理历史帧,在推理阶段以较大时间间隔更新记忆队列,降低计算负担并增强长程任务生成能力。
  • 自由锚定视角(Free Anchor View, FAV)
    • 视角灵活性:FAV允许机器人根据场景动态调整视角,适应狭窄或遮挡环境,如厨房等复杂场景。
    • 空间一致性:基于光线投射原理,使用视线方向图作为视角控制条件,扩展2D空间注意力为跨视角的3D空间注意力,确保生成视频的几何一致性。
  • Diffusion策略头
    • 高效动作预测:在生成网络下游加入多层Transformer组成的Diffusion策略头,可在逆扩散第一步输出动作序列,实现高效动作预测。
    • 稀疏记忆支持:在动作预测中,利用稀疏记忆队列存储真实或重建的FAV观测结果,提升对长程任务的规划能力。

EnerVerse项目信息

EnerVerse应用场景

  • 环境感知与决策:适用于自动驾驶领域,辅助车辆进行环境感知与决策。
  • 机器人操作与装配:可用于工业生产线,指导机器人完成复杂装配任务。
  • 质量检测与维护:可用于工业设备的检测与维护,提升检查效率。
  • 家庭服务:帮助服务机器人在家庭环境中执行整理、搬运等任务。
  • 医疗辅助:可用于医疗机器人,支持手术操作与康复训练。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部