FantasyID是由阿里巴巴集团与北京邮电大学联合研发的一种新型身份保持视频生成框架,基于扩散变换器(Diffusion Transformers)技术,结合3D面部几何先验知识,实现高质量、身份一致的视频生成。该框架通过多视角人脸增强策略,提升面部表情和头部姿态的动态性,避免模型简单复制参考图像。同时,采用可学习的分层感知注入机制,将2D与3D特征有效融合并注入到扩散模型的各层次,从而在保留身份特征的同时增强动作表现力。
FantasyID的主要功能
- 身份保留:确保生成视频中的人物面部特征与输入图像保持一致,即使在复杂表情和动作变化中也能维持高度相似性。
- 动态增强:提升面部表情和头部姿态的多样性,避免生成视频中出现单一或重复现象。
- 高质量视频生成:结合3D几何结构与2D视觉信息,生成结构稳定、细节丰富的视频,并保证时空连贯性。
- 无需微调:支持高效的身份保留视频生成,无需对每个输入进行额外训练,适用于大规模应用场景。
FantasyID的技术原理
- 3D面部几何先验:利用DECA框架提取输入图像中的3D面部结构,为视频生成提供稳定的几何约束。
- 多视角人脸增强:通过构建多角度人脸集合,增强模型对2D外观特征的理解,提升视频动态表现。
- 特征融合:结合2D视觉特征与3D几何特征,生成综合的面部描述符以指导视频生成。
- 分层感知信号注入:设计可学习的分层机制,将融合特征有选择地注入扩散模型各层次,平衡身份保留与动态表现。
- 扩散模型:基于扩散模型的生成框架,通过逐步去噪过程生成符合文本描述和身份特征的视频内容。
FantasyID的项目地址
- 项目官网:https://fantasy-amap.github.io/fantasy-id/
- GitHub仓库:https://github.com/Fantasy-AMAP/fantasy-id
- arXiv技术论文:https://arxiv.org/pdf/2502.13995
FantasyID的应用场景
- 个性化虚拟形象:用于虚拟社交、元宇宙及游戏,创建与用户身份一致的虚拟角色。
- 虚拟内容创作:辅助影视、广告及短视频制作,降低内容生成成本。
- 虚拟客服与数字人:构建自然逼真的数字人形象,提升在线服务体验。
- 虚拟试妆与试衣:应用于电商与美容行业,优化购物与试用体验。
- 互动式教育:生成教师或培训师的动态视频,增强在线教学效果。
发表评论 取消回复