JoyHallo是由京东开发的开源AI数字人模型,专为普通话设计,能够根据音频生成高度逼真的视频。该模型针对普通话复杂的口型和语调进行了优化,并具备跨语言生成视频的能力,支持普通话和英语。JoyHallo提供了开源的数据集和模型训练方法,显著提升了推理速度,较传统方法提高了14.3%。项目基于中文wav2vec2模型进行音频特征嵌入,采用半解耦结构,实现了唇部、表情和头部姿态等面部动画组件的精准分离。 JoyHallo的主要功能包括音频驱动的视频生成、跨语言视频生成、唇部同步以及面部表情生成。其技术核心在于半解耦结构、特征嵌入和交叉注意力机制,这些技术共同提升了唇部运动预测的准确性。此外,JoyHallo的训练数据集来源于jdh-Hallo,涵盖多种年龄和说话风格的普通话视频,涉及日常对话及专业医疗话题。 项目资源可通过官方GitHub仓库、HuggingFace模型库和项目官网获取。相关技术文档可参考arXiv上的技术论文。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部