VASA-1概述

VASA-1是由微软亚洲研究院开发的一种生成框架,旨在将静态照片转化为动态的口型同步视频。此框架通过分析单张静态人脸照片和相应的语音音频,实时生成逼真的3D面部动画。该技术利用精确的唇音同步、丰富的面部表情以及自然的头部运动,创造出高度逼真且生动的虚拟人物形象。VASA-1的核心创新在于其面部动态和头部运动生成模型,该模型在面部潜在空间中运作,能够高效生成高分辨率视频,并支持在线生成和低延迟操作。

VASA-1的功能特性

  • 逼真的唇音同步:生成与输入语音音频完全同步的唇部动作,确保高度真实的说话效果。
  • 丰富的面部表情:除了唇部动作外,还能够捕捉并再现复杂的面部表情和细微的情感变化,增强动画的真实感。
  • 自然的头部运动:模型能够模拟自然的头部动作,如转动和倾斜,使生成的说话面部视频更具生动感。
  • 高效的视频生成:支持在线生成高达40 FPS的512×512分辨率视频,且具有极低的初始延迟,适用于实时应用。
  • 灵活的生成控制:通过接收可选信号作为条件,如主要目光方向、头部距离和情感偏移,可以调整生成过程,提升输出的多样性和适应性。
  • 广泛的输入兼容性:能够处理训练数据之外的照片和音频输入,包括艺术照片、歌唱音频和非英语语音。

VASA-1的工作原理

  • 输入准备:VASA-1需要两个主要输入:一张任意个体的静态面部图像和一段语音音频。
  • 面部特征提取:使用面部编码器从输入的静态面部图像中提取3D外观体积、身份代码、头部姿态和面部动态代码等特征。
  • 面部潜在空间建模:构建一个面部潜在空间,该空间能够解耦面部动态与其他因素(如身份和外观),并具有丰富的表情细节和动态细微差别的表达能力。
  • 扩散模型训练:训练一个基于扩散的模型(Diffusion Transformer),该模型能够在面部潜在空间中生成全面的面部动态和头部运动,条件是给定的音频和可选的控制信号。
  • 条件信号整合:将主要目光方向、头部距离和情感偏移等控制信号作为条件,输入到扩散模型中,以指导面部动态的生成。
  • 面部动态和头部运动生成:利用训练好的扩散模型,根据输入的音频特征和条件信号,生成面部动态和头部运动的潜在代码序列。
  • 视频帧生成:使用面部解码器和从编码器中提取的外观及身份特征,根据生成的面部动态和头部运动潜在代码,产生最终的视频帧。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部