DICE

简介：DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架，能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模，结合情感关联增强和判别机制，确保生成内容的情感一致性与视觉质量。该工具支持多模态输入，具备良好的泛化能力和用户自定义功能，适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

AI小编 369 阅读 0 评论 87 点赞

项目地址

DICE-Talk简介

DICE-Talk是由复旦大学与腾讯优图实验室联合研发的一种情感化动态肖像生成框架，能够生成具有生动情感表达且保持身份一致性的动态视频。该框架引入了情感关联增强模块，通过情感库捕捉不同情感之间的关系，从而提升情感生成的准确性和多样性。同时，DICE-Talk设计了情感判别目标，确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验结果表明，该方法在情感准确性、唇部同步及视觉质量方面均优于现有技术。

DICE-Talk的核心功能

情感化动态肖像生成：基于音频和参考图像，生成具有特定情感表达的动态视频。
身份保持：在生成过程中维持输入图像的身份特征，防止信息混淆。
高质量视频输出：生成的视频在视觉质量、唇部同步和情感表达上表现优异。
泛化能力：具备处理未见过的情感与身份组合的能力。
用户可控性：允许用户指定情感目标，实现对生成内容的精细控制。
多模态支持：支持音频、视频和图像等多种输入方式。

DICE-Talk的技术机制

身份与情感解耦：通过跨模态注意力机制建模音频与视觉情感线索，将情感表示为身份无关的高斯分布，并利用对比学习优化情感嵌入。
情感关联增强：情感库作为可学习模块，存储多种情感特征，并通过向量量化与注意力机制学习情感间的关联。
情感判别机制：在扩散模型中引入情感判别器，确保生成视频的情感一致性。
扩散模型架构：从噪声开始逐步去噪生成视频，结合跨模态注意力机制，融合参考图像、音频和情感信息进行生成。

DICE-Talk项目信息

项目官网：https://toto222.github.io/DICE-Talk/
GitHub仓库：https://github.com/toto222/DICE-Talk
arXiv论文：https://arxiv.org/pdf/2504.18087

DICE-Talk的应用领域

数字人与虚拟助手：提升交互自然度，增强用户体验。
影视制作：提高特效生成效率，降低制作成本。
虚拟现实与增强现实：增强沉浸感与情感互动。
在线教育与培训：使教学内容更具吸引力。
心理健康支持：用于情感反馈与心理干预。

本文分类：AI项目与工具
本文标签：AI生成情感识别动态肖像多模态处理扩散模型身份保持虚拟人视频生成人工智能情感计算
浏览次数：369 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/7812.html

评论列表共有 0 条评论

暂无评论

DICE

DICE-Talk简介

DICE-Talk的核心功能

DICE-Talk的技术机制

DICE-Talk项目信息

DICE-Talk的应用领域

文本到视频生成：CogVideoX (2024) 和 CogVideo (ICLR 2023)

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复