Sonic

简介：Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架，基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器，提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色，具备高稳定性与自然连贯性，支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。

AI小编 568 阅读 0 评论 67 点赞

项目地址

Sonic简介

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架，能够基于音频信号生成高度逼真的面部表情和动作。该框架通过上下文增强音频学习和运动解耦控制器，分别提取音频中的长期时间信息，并独立控制头部与表情运动，提升局部音频感知能力。同时，Sonic采用时间感知位置偏移融合机制，将局部感知扩展至全局，有效解决长视频生成中出现的抖动和突变问题。在视频质量、唇部同步精度、运动多样性和时间连贯性等方面，Sonic优于现有先进方法，显著提升了肖像动画的自然度与连贯性，并支持用户对动画进行精细调整。

Sonic的核心功能

高精度唇部同步：实现音频与唇部动作的高度匹配，确保语音内容与嘴型一致。
多样的表情与头部动作：生成自然且丰富的面部表情和头部运动，提升动画的表现力。
长时间稳定输出：在处理长视频时保持输出稳定性，避免抖动和突变，保证整体连贯性。
用户可调参数：提供多种参数调节选项，允许用户自定义头部运动、表情强度和唇部同步效果。

Sonic的技术原理

上下文增强音频学习：利用Whisper-Tiny模型提取音频特征，并结合多尺度理解与空间交叉注意力层，指导面部动画生成。
运动解耦控制器：将头部运动与表情运动分离控制，提高动画多样性与自然度。
时间感知位置偏移融合：通过滑动窗口策略，将局部音频感知扩展为全局感知，提升长视频生成的连贯性。
全局音频驱动：完全依赖音频信号生成动画，减少对视觉输入的依赖，提升生成自然度。

Sonic的实验结果

定量分析：
- 在HDTF和CelebV-HQ数据集上，Sonic在FID、FVD、唇部同步精度及视频流畅度等多个指标上优于当前主流方法。
- Sonic的FID和FVD分数更低，表明其生成视频的质量更高，更接近真实数据。
定性分析：Sonic生成的动画更具自然感和多样性，尤其在复杂背景和不同风格肖像场景下表现出更强的鲁棒性。

Sonic的生成效果

与开源方法对比：Sonic能生成更符合音频内容的表情和更自然的头部动作。

与闭源方法对比：
- 与EMO对比
  - Sonic在面部表情自然度和眼镜反射真实性方面表现更优。

- - 在歌唱场景中，Sonic展现出更高的发音准确性和更丰富的动作表现。

- 与即梦对比：
  - Sonic在动漫案例中生成的嘴唇动作和外观更贴近原始输入，并包含眨眼等细节。

- - 在长视频生成中，Sonic避免了因运动帧限制导致的末尾伪影问题。

Sonic项目资源

项目官网：https://jixiaozhong.github.io/Sonic/
GitHub仓库：https://github.com/jixiaozhong/Sonic
arXiv技术论文：https://arxiv.org/pdf/2411.16331
在线体验Demo：http://demo.sonic.jixiaozhong.online/

Sonic的应用领域

虚拟现实（VR）：为虚拟角色生成真实表情与口型，增强沉浸体验。
影视制作：高效生成角色口型与表情动画，提升制作效率。
在线教育：将语音转化为生动动画，增强教学互动性。
游戏开发：生成自然的角色表情与动作，提升游戏真实感。
社交媒体：支持用户将语音与照片结合，生成个性化动画视频。

本文分类：AI项目与工具
本文标签：AI动画音频驱动面部表情生成肖像动画 Sonic 机器学习视频生成人工智能深度学习语音合成
浏览次数：568 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9024.html

评论列表共有 0 条评论

暂无评论

Sonic

Sonic简介

Sonic的核心功能

Sonic的技术原理

Sonic的实验结果

Sonic的生成效果

Sonic项目资源

Sonic的应用领域

AniTalker

文本到视频生成：CogVideoX (2024) 和 CogVideo (ICLR 2023)

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复