FantasyTalking是由阿里巴巴AMAP团队与北京邮电大学联合研发的一种新型框架,旨在从单张静态肖像生成高质量、可动画化的虚拟形象。该框架基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略:第一阶段通过片段级训练建立全局运动连贯性,第二阶段利用唇部追踪掩码在帧级别优化唇部动作,确保与音频信号精确同步。同时,框架引入面部专注的交叉注意力模块以保持面部一致性,并通过运动强度调制模块实现对表情和身体动作的可控调节。 FantasyTalking支持多种风格和姿态的虚拟形象生成,包括写实与卡通风格,以及不同视角和身体范围的动态表现。其技术原理涵盖身份保持机制、运动强度调节以及基于预训练模型的高保真视频生成能力,适用于游戏开发、影视制作、虚拟现实、虚拟主播及智能教育等多个领域。
发表评论 取消回复