Sonic简介

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架,能够基于音频信号生成高度逼真的面部表情和动作。该框架通过上下文增强音频学习和运动解耦控制器,分别提取音频中的长期时间信息,并独立控制头部与表情运动,提升局部音频感知能力。同时,Sonic采用时间感知位置偏移融合机制,将局部感知扩展至全局,有效解决长视频生成中出现的抖动和突变问题。在视频质量、唇部同步精度、运动多样性和时间连贯性等方面,Sonic优于现有先进方法,显著提升了肖像动画的自然度与连贯性,并支持用户对动画进行精细调整。

Sonic的核心功能

  • 高精度唇部同步:实现音频与唇部动作的高度匹配,确保语音内容与嘴型一致。
  • 多样的表情与头部动作:生成自然且丰富的面部表情和头部运动,提升动画的表现力。
  • 长时间稳定输出:在处理长视频时保持输出稳定性,避免抖动和突变,保证整体连贯性。
  • 用户可调参数:提供多种参数调节选项,允许用户自定义头部运动、表情强度和唇部同步效果。

Sonic的技术原理

  • 上下文增强音频学习:利用Whisper-Tiny模型提取音频特征,并结合多尺度理解与空间交叉注意力层,指导面部动画生成。
  • 运动解耦控制器:将头部运动与表情运动分离控制,提高动画多样性与自然度。
  • 时间感知位置偏移融合:通过滑动窗口策略,将局部音频感知扩展为全局感知,提升长视频生成的连贯性。
  • 全局音频驱动:完全依赖音频信号生成动画,减少对视觉输入的依赖,提升生成自然度。

Sonic的实验结果

  • 定量分析
    • 在HDTF和CelebV-HQ数据集上,Sonic在FID、FVD、唇部同步精度及视频流畅度等多个指标上优于当前主流方法。
    • Sonic的FID和FVD分数更低,表明其生成视频的质量更高,更接近真实数据。
  • 定性分析:Sonic生成的动画更具自然感和多样性,尤其在复杂背景和不同风格肖像场景下表现出更强的鲁棒性。

Sonic的生成效果

  • 与开源方法对比:Sonic能生成更符合音频内容的表情和更自然的头部动作。
  • 与闭源方法对比
    • 与EMO对比
      • Sonic在面部表情自然度和眼镜反射真实性方面表现更优。
      • 在歌唱场景中,Sonic展现出更高的发音准确性和更丰富的动作表现。
    • 与即梦对比
      • Sonic在动漫案例中生成的嘴唇动作和外观更贴近原始输入,并包含眨眼等细节。
      • 在长视频生成中,Sonic避免了因运动帧限制导致的末尾伪影问题。

Sonic项目资源

Sonic的应用领域

  • 虚拟现实(VR):为虚拟角色生成真实表情与口型,增强沉浸体验。
  • 影视制作:高效生成角色口型与表情动画,提升制作效率。
  • 在线教育:将语音转化为生动动画,增强教学互动性。
  • 游戏开发:生成自然的角色表情与动作,提升游戏真实感。
  • 社交媒体:支持用户将语音与照片结合,生成个性化动画视频。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部