JoyGen简介

JoyGen是由京东科技与香港大学联合研发的音频驱动型3D说话人脸视频生成框架,旨在实现唇部动作与音频信号的高度同步,并提供高质量的视觉输出。该框架通过结合音频特征和面部深度图,驱动唇部运动的生成,采用单步UNet架构进行高效的视频编辑。JoyGen基于包含130小时中文视频的高质量数据集进行训练,并在开源的HDTF数据集上验证了其性能。实验结果表明,JoyGen在唇音同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑提供了创新性的技术方案。

JoyGen的核心功能

  • 精准唇音同步:通过音频驱动技术生成与音频内容高度匹配的唇部动作。
  • 高质量视觉输出:生成的视频具备自然的面部表情和清晰的唇部细节。
  • 视频编辑优化:可在现有视频基础上进行唇部运动的调整和优化,无需重新生成全部内容。
  • 多语言支持:支持中英文等多种语言的视频生成,适用于多种应用场景。

JoyGen的技术原理

  • 第一阶段
    • 3D重建模型:从输入图像中提取身份系数,用于描述人物面部特征。
    • 音频到运动模型:将音频信号转换为表情系数,用于控制唇部运动。
    • 深度图生成:结合身份和表情系数生成3D网格,并通过可微渲染生成深度图。
  • 第二阶段
    • 单步UNet架构:整合音频特征与深度图信息,用于视频帧生成。
    • 跨注意力机制:使音频特征与图像特征有效交互,确保唇部动作与音频一致。
    • 解码与优化:通过解码器还原图像空间,并利用L1损失函数优化视频质量。
  • 数据集支持:基于130小时中文视频数据集进行训练,提升模型适应性和泛化能力。

JoyGen项目信息

JoyGen的应用场景

  • 虚拟主播与直播:支持新闻播报、电商直播等场景,实现音频驱动的唇部动画。
  • 动画制作:辅助生成与配音同步的唇部动画,提高制作效率。
  • 在线教育:生成与教学语音同步的虚拟教师形象,增强教学互动性。
  • 视频创作:帮助创作者快速生成高质量说话人视频,拓展内容形式。
  • 多语言视频生成:支持不同语言视频的生成与同步,便于内容国际化传播。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部