JoyGen简介
JoyGen是由京东科技与香港大学联合研发的音频驱动型3D说话人脸视频生成框架,旨在实现唇部动作与音频信号的高度同步,并提供高质量的视觉输出。该框架通过结合音频特征和面部深度图,驱动唇部运动的生成,采用单步UNet架构进行高效的视频编辑。JoyGen基于包含130小时中文视频的高质量数据集进行训练,并在开源的HDTF数据集上验证了其性能。实验结果表明,JoyGen在唇音同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑提供了创新性的技术方案。
JoyGen的核心功能
- 精准唇音同步:通过音频驱动技术生成与音频内容高度匹配的唇部动作。
- 高质量视觉输出:生成的视频具备自然的面部表情和清晰的唇部细节。
- 视频编辑优化:可在现有视频基础上进行唇部运动的调整和优化,无需重新生成全部内容。
- 多语言支持:支持中英文等多种语言的视频生成,适用于多种应用场景。
JoyGen的技术原理
- 第一阶段:
- 3D重建模型:从输入图像中提取身份系数,用于描述人物面部特征。
- 音频到运动模型:将音频信号转换为表情系数,用于控制唇部运动。
- 深度图生成:结合身份和表情系数生成3D网格,并通过可微渲染生成深度图。
- 第二阶段:
- 单步UNet架构:整合音频特征与深度图信息,用于视频帧生成。
- 跨注意力机制:使音频特征与图像特征有效交互,确保唇部动作与音频一致。
- 解码与优化:通过解码器还原图像空间,并利用L1损失函数优化视频质量。
- 数据集支持:基于130小时中文视频数据集进行训练,提升模型适应性和泛化能力。
JoyGen项目信息
- 项目官网:https://joy-mm.github.io/JoyGen/
- GitHub仓库:https://github.com/JOY-MM/JoyGen
- arXiv论文:https://arxiv.org/pdf/2501.01798
JoyGen的应用场景
- 虚拟主播与直播:支持新闻播报、电商直播等场景,实现音频驱动的唇部动画。
- 动画制作:辅助生成与配音同步的唇部动画,提高制作效率。
- 在线教育:生成与教学语音同步的虚拟教师形象,增强教学互动性。
- 视频创作:帮助创作者快速生成高质量说话人视频,拓展内容形式。
- 多语言视频生成:支持不同语言视频的生成与同步,便于内容国际化传播。
发表评论 取消回复