FlexiAct简介
FlexiAct是由清华大学与腾讯ARC实验室联合研发的一种新型动作迁移模型。该模型能够在给定目标图像的前提下,将参考视频中的动作精准迁移到目标主体上,尤其适用于空间结构差异较大或跨域的异构场景。通过引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,FlexiAct有效克服了现有方法在布局、视角和骨架结构上的限制,同时确保了身份一致性。其在人物及动物的动作迁移任务中均表现出色,具备广泛的应用潜力。
FlexiAct的核心功能
- 跨主体动作迁移:支持将动作从一个人物迁移到另一人物,或从人物迁移到动物。
- 外观一致性保持:在迁移动作过程中,确保目标主体的外观特征(如服装、发型等)与原始图像一致。
- 灵活的空间适配能力:即使在参考视频与目标图像存在布局、视角和骨架结构差异的情况下,也能实现自然流畅的动作迁移。
FlexiAct的技术架构
- RefAdapter(空间结构适配器):作为轻量级的图像条件适配器,RefAdapter旨在解决参考视频与目标图像之间的空间结构差异问题。通过在训练过程中随机选择视频帧作为条件输入,增强模型对不同姿态、布局和视角的适应能力,同时保持外观一致性。该模块采用少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现高效的空间适配。
- 频率感知动作提取(FAE):FAE是一个创新性的动作提取模块,直接在去噪过程中完成动作信息的提取,无需依赖独立的时空架构。该模块通过动态调整注意力权重,在去噪的不同阶段分别关注运动信息(低频)和外观细节(高频),从而实现更精准的动作控制与生成。
FlexiAct的获取方式
- 项目官网:https://shiyi-zh0408.github.io/projectpages/FlexiAct/
- GitHub仓库:https://github.com/shiyi-zh0408/FlexiAct
- HuggingFace模型库:https://huggingface.co/shiyi0408/FlexiAct
- arXiv技术论文:https://arxiv.org/pdf/2505.03730
FlexiAct的应用领域
- 影视制作:用于快速生成逼真的角色动作,降低拍摄成本。
- 游戏开发:为游戏角色生成多样化动作,提升互动体验。
- 广告营销:生成虚拟代言人动作,增强广告表现力。
- 教育培训:辅助教学与康复训练动作的生成。
- 娱乐互动:支持用户创作个性化视频内容。
发表评论 取消回复