Sonic简介
Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架,能够基于音频信号生成高度逼真的面部表情和动作。该框架通过上下文增强音频学习和运动解耦控制器,分别提取音频中的长期时间信息,并独立控制头部与表情运动,提升局部音频感知能力。同时,Sonic采用时间感知位置偏移融合机制,将局部感知扩展至全局,有效解决长视频生成中出现的抖动和突变问题。在视频质量、唇部同步精度、运动多样性和时间连贯性等方面,Sonic优于现有先进方法,显著提升了肖像动画的自然度与连贯性,并支持用户对动画进行精细调整。
Sonic的核心功能
- 高精度唇部同步:实现音频与唇部动作的高度匹配,确保语音内容与嘴型一致。
- 多样的表情与头部动作:生成自然且丰富的面部表情和头部运动,提升动画的表现力。
- 长时间稳定输出:在处理长视频时保持输出稳定性,避免抖动和突变,保证整体连贯性。
- 用户可调参数:提供多种参数调节选项,允许用户自定义头部运动、表情强度和唇部同步效果。
Sonic的技术原理
- 上下文增强音频学习:利用Whisper-Tiny模型提取音频特征,并结合多尺度理解与空间交叉注意力层,指导面部动画生成。
- 运动解耦控制器:将头部运动与表情运动分离控制,提高动画多样性与自然度。
- 时间感知位置偏移融合:通过滑动窗口策略,将局部音频感知扩展为全局感知,提升长视频生成的连贯性。
- 全局音频驱动:完全依赖音频信号生成动画,减少对视觉输入的依赖,提升生成自然度。
Sonic的实验结果
- 定量分析:
- 在HDTF和CelebV-HQ数据集上,Sonic在FID、FVD、唇部同步精度及视频流畅度等多个指标上优于当前主流方法。
- Sonic的FID和FVD分数更低,表明其生成视频的质量更高,更接近真实数据。
- 定性分析:Sonic生成的动画更具自然感和多样性,尤其在复杂背景和不同风格肖像场景下表现出更强的鲁棒性。
Sonic的生成效果
-
与开源方法对比:Sonic能生成更符合音频内容的表情和更自然的头部动作。
-
与闭源方法对比:
-
与EMO对比
-
Sonic在面部表情自然度和眼镜反射真实性方面表现更优。
-
-
-
-
-
在歌唱场景中,Sonic展现出更高的发音准确性和更丰富的动作表现。
-
-
-
-
与即梦对比:
-
Sonic在动漫案例中生成的嘴唇动作和外观更贴近原始输入,并包含眨眼等细节。
-
-
-
-
-
在长视频生成中,Sonic避免了因运动帧限制导致的末尾伪影问题。
-
-
Sonic项目资源
- 项目官网:https://jixiaozhong.github.io/Sonic/
- GitHub仓库:https://github.com/jixiaozhong/Sonic
- arXiv技术论文:https://arxiv.org/pdf/2411.16331
- 在线体验Demo:http://demo.sonic.jixiaozhong.online/
Sonic的应用领域
- 虚拟现实(VR):为虚拟角色生成真实表情与口型,增强沉浸体验。
- 影视制作:高效生成角色口型与表情动画,提升制作效率。
- 在线教育:将语音转化为生动动画,增强教学互动性。
- 游戏开发:生成自然的角色表情与动作,提升游戏真实感。
- 社交媒体:支持用户将语音与照片结合,生成个性化动画视频。
发表评论 取消回复