Pippo

简介：Pippo是由Meta Reality Labs研发的图像到视频生成模型，可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构，结合ControlMLP模块与注意力偏差技术，实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全，适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程，确保生成质量与稳定性。

AI小编 514 阅读 0 评论 38 点赞

项目地址

Pippo是由Meta Reality Labs开发的一款图像到视频生成模型，能够基于单张照片生成多视角的高清人像视频。该模型采用多视角扩散变换器架构，并在30亿张无标注的人像图像上进行了预训练，随后在2500张高质量工作室图像上进行微调。Pippo的核心技术包括ControlMLP模块，用于注入像素对齐的条件信息，如Plücker射线和空间锚点，以提升生成内容的3D一致性。此外，Pippo引入了注意力偏差技术，在推理阶段可生成比训练阶段多5倍的视角，同时通过重投影误差指标评估生成视频的三维一致性。

Pippo支持从全身或面部图像生成多视角视频，具备高分辨率输出能力，可自动补全缺失细节，适用于多种应用场景。其技术方案涵盖了多阶段训练策略，包括预训练、中间训练和后训练阶段，以确保生成效果的稳定性和高质量。

项目官网、GitHub仓库和技术论文均可通过链接访问。

本文分类：AI项目与工具
本文标签：AI视频生成多视角生成 3D一致性图像到视频 ControlMLP Meta Research 扩散模型虚拟现实视频创作人工智能
浏览次数：514 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8967.html

上一篇 > Animate Anyone 2
下一篇 > ImageToVideo AI

评论列表共有 0 条评论

暂无评论

Pippo

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复