DICE-Talk简介
DICE-Talk是由复旦大学与腾讯优图实验室联合研发的一种情感化动态肖像生成框架,能够生成具有生动情感表达且保持身份一致性的动态视频。该框架引入了情感关联增强模块,通过情感库捕捉不同情感之间的关系,从而提升情感生成的准确性和多样性。同时,DICE-Talk设计了情感判别目标,确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验结果表明,该方法在情感准确性、唇部同步及视觉质量方面均优于现有技术。
DICE-Talk的核心功能
- 情感化动态肖像生成:基于音频和参考图像,生成具有特定情感表达的动态视频。
- 身份保持:在生成过程中维持输入图像的身份特征,防止信息混淆。
- 高质量视频输出:生成的视频在视觉质量、唇部同步和情感表达上表现优异。
- 泛化能力:具备处理未见过的情感与身份组合的能力。
- 用户可控性:允许用户指定情感目标,实现对生成内容的精细控制。
- 多模态支持:支持音频、视频和图像等多种输入方式。
DICE-Talk的技术机制
- 身份与情感解耦:通过跨模态注意力机制建模音频与视觉情感线索,将情感表示为身份无关的高斯分布,并利用对比学习优化情感嵌入。
- 情感关联增强:情感库作为可学习模块,存储多种情感特征,并通过向量量化与注意力机制学习情感间的关联。
- 情感判别机制:在扩散模型中引入情感判别器,确保生成视频的情感一致性。
- 扩散模型架构:从噪声开始逐步去噪生成视频,结合跨模态注意力机制,融合参考图像、音频和情感信息进行生成。
DICE-Talk项目信息
- 项目官网:https://toto222.github.io/DICE-Talk/
- GitHub仓库:https://github.com/toto222/DICE-Talk
- arXiv论文:https://arxiv.org/pdf/2504.18087
DICE-Talk的应用领域
- 数字人与虚拟助手:提升交互自然度,增强用户体验。
- 影视制作:提高特效生成效率,降低制作成本。
- 虚拟现实与增强现实:增强沉浸感与情感互动。
- 在线教育与培训:使教学内容更具吸引力。
- 心理健康支持:用于情感反馈与心理干预。
发表评论 取消回复