Open-Sora简介

Open-Sora是Colossal-AI团队开发的一个开源视频生成模型,旨在复制OpenAI的Sora视频生成技术。该模型基于DiT架构,经过三个关键阶段的训练:大规模图像预训练、大规模视频预训练和高质量视频数据微调。通过这一系列训练,Open-Sora能够生成与文本描述相符的视频内容。开源项目覆盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供学术研究和教育用途。

Open-Sora的官网入口

Open-Sora的模型架构

Open-Sora模型采用DiT架构,借鉴了华为开源的PixArt-α高质量文本到图像生成模型,并通过增加时间注意力层扩展为视频生成。模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件。STDiT利用空间-时间注意力机制,结合交叉注意力模块,实现视频生成中的文本-图像对齐。

核心组件

  • 预训练的VAE:用于数据压缩和重构,支持模型的高效训练和推理。
  • 文本编码器:将文本提示转化为文本嵌入,确保生成视频与文本描述一致。
  • STDiT:核心组件,利用空间-时间注意力机制和交叉注意力模块,实现视频生成。

架构设计

  • 空间-时间注意力机制:处理视频数据中的空间和时间维度。
  • 交叉注意力:融合文本嵌入与视频特征,确保生成视频与文本描述匹配。
  • 训练与推理流程:VAE编码器压缩视频数据,与文本嵌入一起训练STDiT模型;推理阶段,从潜在空间采样噪声,生成去噪特征,通过VAE解码器生成视频。

Open-Sora的训练复现方案

Open-Sora的训练方案分为三个阶段:大规模图像预训练、大规模视频预训练和高质量视频数据微调。第一阶段利用现有高质量图像生成模型作为基础,建立图像内容理解。第二阶段通过大量视频数据训练,增强对视频时间序列的理解。第三阶段使用高质量视频数据进行微调,提升生成视频的真实度和质量。

第一阶段:大规模图像预训练

通过大规模图像数据集预训练,建立对图像内容的基本理解,为后续视频预训练打下基础。

第二阶段:大规模视频预训练

通过大量视频数据训练,增强对视频时间序列的理解,加入时序注意力模块,提高模型泛化能力。

第三阶段:高质量视频数据微调

使用高质量视频数据进行微调,进一步提升生成视频的真实感和质量。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部