AnyCharV是由香港中文大学、清华大学深圳国际研究生院和香港大学联合研发的一种角色可控视频生成框架。该框架能够将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。其采用两阶段训练策略,第一阶段通过细粒度分割掩码和姿态信息实现自监督合成;第二阶段则利用自增强训练和粗粒度掩码优化角色细节的保留。实验表明,AnyCharV在保持角色外观细节方面表现出色,并支持复杂的人-物交互和背景融合。此外,该工具可与文本到图像(T2I)和文本到视频(T2V)模型生成的内容结合,展现出强大的泛化能力。
AnyCharV是由香港中文大学、清华大学深圳国际研究生院和香港大学联合研发的一种角色可控视频生成框架。该框架能够将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。其采用两阶段训练策略,第一阶段通过细粒度分割掩码和姿态信息实现自监督合成;第二阶段则利用自增强训练和粗粒度掩码优化角色细节的保留。实验表明,AnyCharV在保持角色外观细节方面表现出色,并支持复杂的人-物交互和背景融合。此外,该工具可与文本到图像(T2I)和文本到视频(T2V)模型生成的内容结合,展现出强大的泛化能力。
发表评论 取消回复