FlexiAct简介

FlexiAct是由清华大学与腾讯ARC实验室联合研发的一种新型动作迁移模型。该模型能够在给定目标图像的前提下,将参考视频中的动作精准迁移到目标主体上,尤其适用于空间结构差异较大或跨域的异构场景。通过引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,FlexiAct有效克服了现有方法在布局、视角和骨架结构上的限制,同时确保了身份一致性。其在人物及动物的动作迁移任务中均表现出色,具备广泛的应用潜力。

FlexiAct的核心功能

  • 跨主体动作迁移:支持将动作从一个人物迁移到另一人物,或从人物迁移到动物。
  • 外观一致性保持:在迁移动作过程中,确保目标主体的外观特征(如服装、发型等)与原始图像一致。
  • 灵活的空间适配能力:即使在参考视频与目标图像存在布局、视角和骨架结构差异的情况下,也能实现自然流畅的动作迁移。

FlexiAct的技术架构

  • RefAdapter(空间结构适配器):作为轻量级的图像条件适配器,RefAdapter旨在解决参考视频与目标图像之间的空间结构差异问题。通过在训练过程中随机选择视频帧作为条件输入,增强模型对不同姿态、布局和视角的适应能力,同时保持外观一致性。该模块采用少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现高效的空间适配。
  • 频率感知动作提取(FAE):FAE是一个创新性的动作提取模块,直接在去噪过程中完成动作信息的提取,无需依赖独立的时空架构。该模块通过动态调整注意力权重,在去噪的不同阶段分别关注运动信息(低频)和外观细节(高频),从而实现更精准的动作控制与生成。

FlexiAct的获取方式

FlexiAct的应用领域

  • 影视制作:用于快速生成逼真的角色动作,降低拍摄成本。
  • 游戏开发:为游戏角色生成多样化动作,提升互动体验。
  • 广告营销:生成虚拟代言人动作,增强广告表现力。
  • 教育培训:辅助教学与康复训练动作的生成。
  • 娱乐互动:支持用户创作个性化视频内容。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部