JoyGen

简介：JoyGen是由京东科技与香港大学联合开发的音频驱动型3D说话人脸视频生成框架，能够实现唇部动作与音频信号的精准同步，并提供高质量的视觉效果。该工具采用单步UNet架构进行高效视频编辑，基于130小时中文视频数据集训练，在唇音同步和视觉质量方面表现优异。适用于虚拟主播、动画制作、在线教育及多语言视频生成等多个领域，为视频内容创作提供了创新解决方案。

AI小编 281 阅读 0 评论 78 点赞

项目地址

JoyGen简介

JoyGen是由京东科技与香港大学联合研发的音频驱动型3D说话人脸视频生成框架，旨在实现唇部动作与音频信号的高度同步，并提供高质量的视觉输出。该框架通过结合音频特征和面部深度图，驱动唇部运动的生成，采用单步UNet架构进行高效的视频编辑。JoyGen基于包含130小时中文视频的高质量数据集进行训练，并在开源的HDTF数据集上验证了其性能。实验结果表明，JoyGen在唇音同步和视觉质量方面均达到行业领先水平，为说话人脸视频编辑提供了创新性的技术方案。

JoyGen的核心功能

精准唇音同步：通过音频驱动技术生成与音频内容高度匹配的唇部动作。
高质量视觉输出：生成的视频具备自然的面部表情和清晰的唇部细节。
视频编辑优化：可在现有视频基础上进行唇部运动的调整和优化，无需重新生成全部内容。
多语言支持：支持中英文等多种语言的视频生成，适用于多种应用场景。

JoyGen的技术原理

第一阶段：
- 3D重建模型：从输入图像中提取身份系数，用于描述人物面部特征。
- 音频到运动模型：将音频信号转换为表情系数，用于控制唇部运动。
- 深度图生成：结合身份和表情系数生成3D网格，并通过可微渲染生成深度图。
第二阶段：
- 单步UNet架构：整合音频特征与深度图信息，用于视频帧生成。
- 跨注意力机制：使音频特征与图像特征有效交互，确保唇部动作与音频一致。
- 解码与优化：通过解码器还原图像空间，并利用L1损失函数优化视频质量。
数据集支持：基于130小时中文视频数据集进行训练，提升模型适应性和泛化能力。

JoyGen项目信息

项目官网：https://joy-mm.github.io/JoyGen/
GitHub仓库：https://github.com/JOY-MM/JoyGen
arXiv论文：https://arxiv.org/pdf/2501.01798

JoyGen的应用场景

虚拟主播与直播：支持新闻播报、电商直播等场景，实现音频驱动的唇部动画。
动画制作：辅助生成与配音同步的唇部动画，提高制作效率。
在线教育：生成与教学语音同步的虚拟教师形象，增强教学互动性。
视频创作：帮助创作者快速生成高质量说话人视频，拓展内容形式。
多语言视频生成：支持不同语言视频的生成与同步，便于内容国际化传播。

本文分类：AI项目与工具
本文标签：AI视频生成 3D说话人脸唇音同步视频编辑人工智能多语言支持虚拟主播深度学习视频合成音频驱动
浏览次数：281 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9067.html

评论列表共有 0 条评论

暂无评论

JoyGen

JoyGen简介

JoyGen的核心功能

JoyGen的技术原理

JoyGen项目信息

JoyGen的应用场景

AniTalker

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复