EDTalk是由上海交通大学与网易合作研发的音频驱动唇部同步模型,专注于实现嘴型、头部姿态及情感表情的独立操控。用户仅需上传一张图片、一段音频以及参考视频,即可驱动图片中的人物开口说话,并支持多种情感定制,包括高兴、愤怒、悲伤等。EDTalk通过三个轻量级模块将面部动态分解为嘴型、姿态和表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定动作。这种高效的解耦机制显著提高了训练效率,降低了资源消耗,便于初学者快速上手并探索创新应用。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部