Phantom是什么

Phantom是由字节跳动智能创作团队开发的用于主体一致视频生成(Subject-to-Video, S2V)的框架。该框架基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述相匹配的视频内容。Phantom在现有文本到视频(T2V)和图像到视频(I2V)架构的基础上,优化了联合文本-图像注入模型,通过文本-图像-视频三元组数据进行训练,实现跨模态对齐。该框架支持单主体和多主体参考,尤其在人类生成任务中注重主体一致性,覆盖身份保留等视频生成任务,具有显著优势。

Phantom的主要功能

  • 从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。
  • 根据文本提示生成视频:用户通过文本指令控制视频内容和风格,实现高度定制化的视频生成。
  • 多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。
  • 身份保留(ID-Preserving):在生成视频时保持主体的身份特征(如人脸、服装等),适用于虚拟试穿、数字人生成等场景。
  • 高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现优异,达到商业级水平。

Phantom的技术原理

  • 数据结构设计:Phantom构建了文本-图像-视频三元组数据结构,用于训练模型理解不同模态之间的关系。数据分为In-paired(图像与视频主体一致)和Cross-paired(跨视频匹配)两种类型,以防止模型简单复制输入图像。
  • 模型架构:基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型。模型包括输入头(Input Head)和可训练的DiT模块,其中输入头负责编码视频、文本和参考图像,DiT模块负责跨模态对齐和视频生成。
  • 跨模态对齐:参考图像经过特定的视觉编码器(如VAE和CLIP)编码后,与视频特征和文本特征拼接,输入到DiT模块的视觉和文本分支。
  • 身份保留技术:在处理人脸等身份特征时,使用面部识别模型(如ArcFace)评估生成视频与参考图像的相似度,确保主体身份的一致性。
  • 优化与训练:基于大规模的三元组数据进行训练,学习如何在生成视频时平衡文本和图像的双重提示。模型在预训练阶段继承基础模型的权重,并基于跨模态数据进一步微调,实现高质量的视频生成。

Phantom的项目地址

Phantom的应用场景

  • 虚拟试穿:生成服装动态展示视频,帮助用户预览效果。
  • 数字人生成:创建具有特定外貌的虚拟角色,用于虚拟主播等场景。
  • 广告视频制作:根据图像和文本快速生成产品广告,提升制作效率。
  • 影视动画:生成角色动画原型,辅助创意验证,降低制作成本。
  • 教育培训:生成科学实验、历史场景等教学视频,增强互动性。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部