Perception-as-Control是什么

Perception-as-Control是由阿里巴巴通义实验室开发的一种图像动画框架,能够根据用户输入实现对运动的精细化控制。该框架基于3D感知运动表示,将相机和物体的运动转化为直观且一致的视觉效果,并利用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。其核心架构采用基于U-Net的扩散模型,结合参考图像的外观信息与运动控制信号,生成具有可控性的图像动画。通过三阶段训练策略,该框架在平衡相机和物体运动控制方面表现出色,提升了细粒度运动控制的能力。

Perception-as-Control的主要功能

  • 细粒度协同运动控制:支持对相机和物体运动进行精细控制,使用户能够精确调整场景中各个元素的运动及视角变化。
  • 多种运动相关视频合成任务:包括运动生成、运动克隆、运动转移和运动编辑等,满足多样化的视频创作需求。
  • 3D感知运动表示:通过构建3D感知运动表示,将复杂场景简化为关键对象部分和世界包络,实现更直观的视觉变化。

Perception-as-Control的技术原理

  • 3D感知运动表示:利用3D点跟踪和视觉里程计技术,捕捉局部物体运动和全局相机运动,简化复杂场景。
  • 网络架构:基于去噪U-Net结构,使用两个轻量级编码器分别处理相机和物体的控制信号,避免RGB级别的干扰。
  • 参考图像注入:通过ReferenceNet将参考图像的外观信息融入生成过程,确保输出视频保持特定风格。
  • 三阶段训练策略:分阶段训练相机和物体编码器,逐步提升对复杂运动的控制能力。
  • 扩散模型:采用图像扩散概率模型,通过去噪U-Net生成视频,优化目标是减少预测噪声与实际噪声之间的差异。

Perception-as-Control的项目地址

Perception-as-Control的应用场景

  • 电影和视频特效:用于生成具有特定运动的动画场景,支持复杂运动的复制与迁移。
  • 游戏开发:为游戏角色生成自然可控的动画,增强沉浸感。
  • 虚拟现实(VR)和增强现实(AR):支持实时动画反馈,提升交互体验。
  • 广告和营销:生成高质量动态广告内容。
  • 教育和培训:用于科学实验和技能培训的可视化展示。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部