VLOGGER简介

VLOGGER AI是由谷歌研究团队开发的一种多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的核心功能是将一张静态图片转化为动态视频角色,同时保持图像中人物的逼真外观。VLOGGER还能根据音频控制人物的动作,包括面部表情、唇部动作、头部运动、眼神、眨眼以及上身和手部动作,从而达到音频驱动的视频合成的新高度。

VLOGGER的功能与特点

VLOGGER具备以下功能和特点:

  • 图像和音频驱动的视频生成: VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频,VLOGGER将生成一个视频中的人物,其面部表情、嘴唇动作和身体语言与音频同步。
  • 多样性和真实性: VLOGGER生成的视频具有高度的多样性,能够展示原始主体的不同动作和表情,同时保持背景的一致性和视频的真实性。
  • 视频编辑: VLOGGER可以用于编辑现有视频,例如改变视频中人物的表情,使其与原始视频的未改变像素保持一致。
  • 生成移动和说话的人物: VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频,即使没有视频中人物的原始视频资料。
  • 视频翻译: VLOGGER能够将一种语言的视频转换为另一种语言的视频,通过编辑唇部和面部区域以匹配新的音频,实现跨语言的视频内容适配。

VLOGGER的工作原理

VLOGGER的工作原理基于两个阶段:音频驱动的运动生成和时间连贯的视频生成。

第一阶段:音频驱动的运动生成

  1. 音频处理:VLOGGER首先接收音频输入,无论是语音还是音乐。如果是文本,则通过TTS模型转换为音频波形。
  2. 3D运动预测:系统使用基于Transformer架构的网络处理音频,预测与音频同步的3D面部表情和身体姿势。
  3. 生成控制表示:网络输出一系列3D姿势参数,用于生成控制视频生成过程的2D表示。

第二阶段:时间连贯的视频生成

  1. 视频生成模型:VLOGGER的第二个阶段是一个时间扩散模型,接收第一阶段生成的3D运动控制和一张参考图像。
  2. 条件化视频生成:视频生成模型基于扩散模型,利用预测的2D控制生成一系列帧,与音频和3D运动参数同步。
  3. 超分辨率:为了提高视频质量,VLOGGER包括一个超分辨率扩散模型,将视频分辨率提升至更高水平。
  4. 时间外延:VLOGGER使用时间外延技术生成任意长度的视频,通过迭代生成新的帧来扩展视频长度。

数据集和训练

VLOGGER在MENTOR数据集上进行训练,该数据集包含2200小时和800000个身份的数据,涵盖了大量身份和动态手势。训练过程中,模型学习如何根据3D姿势参数和输入图像生成连贯且高质量的视频序列。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部