JoyHallo

简介：JoyHallo是一款由京东开源的AI数字人模型，专注于普通话语音到视频的转换，支持跨语言生成。它通过半解耦结构优化唇部同步效果，并结合特征嵌入和交叉注意力机制提升生成质量。JoyHallo适用于虚拟主播、在线教育、客户服务、娱乐产业等多个领域，能够显著提升内容创作效率并降低成本。

AI小编 852 阅读 0 评论 65 点赞

项目地址

JoyHallo是由京东开发的开源AI数字人模型，专为普通话设计，能够根据音频生成高度逼真的视频。该模型针对普通话复杂的口型和语调进行了优化，并具备跨语言生成视频的能力，支持普通话和英语。JoyHallo提供了开源的数据集和模型训练方法，显著提升了推理速度，较传统方法提高了14.3%。项目基于中文wav2vec2模型进行音频特征嵌入，采用半解耦结构，实现了唇部、表情和头部姿态等面部动画组件的精准分离。 JoyHallo的主要功能包括音频驱动的视频生成、跨语言视频生成、唇部同步以及面部表情生成。其技术核心在于半解耦结构、特征嵌入和交叉注意力机制，这些技术共同提升了唇部运动预测的准确性。此外，JoyHallo的训练数据集来源于jdh-Hallo，涵盖多种年龄和说话风格的普通话视频，涉及日常对话及专业医疗话题。项目资源可通过官方GitHub仓库、HuggingFace模型库和项目官网获取。相关技术文档可参考arXiv上的技术论文。

本文分类：AI项目与工具
本文标签：AI数字人音频驱动视频跨语言生成唇部同步面部表情生成半解耦结构特征嵌入虚拟主播在线教育客户服务
浏览次数：852 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/11165.html

评论列表共有 0 条评论

暂无评论

JoyHallo

Heygem

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复