Pippo是由Meta Reality Labs开发的一款图像到视频生成模型,能够基于单张照片生成多视角的高清人像视频。该模型采用多视角扩散变换器架构,并在30亿张无标注的人像图像上进行了预训练,随后在2500张高质量工作室图像上进行微调。Pippo的核心技术包括ControlMLP模块,用于注入像素对齐的条件信息,如Plücker射线和空间锚点,以提升生成内容的3D一致性。此外,Pippo引入了注意力偏差技术,在推理阶段可生成比训练阶段多5倍的视角,同时通过重投影误差指标评估生成视频的三维一致性。

Pippo支持从全身或面部图像生成多视角视频,具备高分辨率输出能力,可自动补全缺失细节,适用于多种应用场景。其技术方案涵盖了多阶段训练策略,包括预训练、中间训练和后训练阶段,以确保生成效果的稳定性和高质量。

项目官网、GitHub仓库和技术论文均可通过链接访问。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部