VLOGGER

简介：VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI小编 551 阅读 0 评论 12 点赞

官网地址

VLOGGER简介

VLOGGER AI是由谷歌研究团队开发的一种多模态扩散模型，专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的核心功能是将一张静态图片转化为动态视频角色，同时保持图像中人物的逼真外观。VLOGGER还能根据音频控制人物的动作，包括面部表情、唇部动作、头部运动、眼神、眨眼以及上身和手部动作，从而达到音频驱动的视频合成的新高度。

VLOGGER的功能与特点

VLOGGER具备以下功能和特点：

图像和音频驱动的视频生成： VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频，VLOGGER将生成一个视频中的人物，其面部表情、嘴唇动作和身体语言与音频同步。
多样性和真实性： VLOGGER生成的视频具有高度的多样性，能够展示原始主体的不同动作和表情，同时保持背景的一致性和视频的真实性。
视频编辑： VLOGGER可以用于编辑现有视频，例如改变视频中人物的表情，使其与原始视频的未改变像素保持一致。
生成移动和说话的人物： VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频，即使没有视频中人物的原始视频资料。
视频翻译： VLOGGER能够将一种语言的视频转换为另一种语言的视频，通过编辑唇部和面部区域以匹配新的音频，实现跨语言的视频内容适配。

VLOGGER的工作原理

VLOGGER的工作原理基于两个阶段：音频驱动的运动生成和时间连贯的视频生成。

第一阶段：音频驱动的运动生成

音频处理：VLOGGER首先接收音频输入，无论是语音还是音乐。如果是文本，则通过TTS模型转换为音频波形。
3D运动预测：系统使用基于Transformer架构的网络处理音频，预测与音频同步的3D面部表情和身体姿势。
生成控制表示：网络输出一系列3D姿势参数，用于生成控制视频生成过程的2D表示。

第二阶段：时间连贯的视频生成

视频生成模型：VLOGGER的第二个阶段是一个时间扩散模型，接收第一阶段生成的3D运动控制和一张参考图像。
条件化视频生成：视频生成模型基于扩散模型，利用预测的2D控制生成一系列帧，与音频和3D运动参数同步。
超分辨率：为了提高视频质量，VLOGGER包括一个超分辨率扩散模型，将视频分辨率提升至更高水平。
时间外延：VLOGGER使用时间外延技术生成任意长度的视频，通过迭代生成新的帧来扩展视频长度。

数据集和训练

VLOGGER在MENTOR数据集上进行训练，该数据集包含2200小时和800000个身份的数据，涵盖了大量身份和动态手势。训练过程中，模型学习如何根据3D姿势参数和输入图像生成连贯且高质量的视频序列。

本文分类：AI项目与工具
本文标签：图像处理音频处理视频生成多模态扩散模型逼真视频面部表情身体动作视频编辑跨语言适配时间连贯性
浏览次数：551 次浏览
发布日期：2024-01-01 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/11688.html

上一篇 > Stable Video 3D (SV3D)
下一篇 > Open

评论列表共有 0 条评论

暂无评论