Goku是什么
Goku是由香港大学与字节跳动联合研发的最新视频生成模型,专注于图像与视频的联合生成任务。该模型基于先进的rectified flow Transformer架构,支持文本到视频、图像到视频以及文本到图像等多种生成模式。Goku通过大规模高质量数据集和高效训练机制,实现了高精度的视频生成能力,能够有效降低广告视频制作成本。其研究团队构建了包含约3600万视频和1.6亿张图像的数据集,并采用多模态大语言模型来增强语境一致性。此外,Goku还引入了并行策略和容错机制,以确保训练过程的稳定性与效率。
Goku+是Goku模型的扩展版本,专为广告视频创作设计,能够快速生成高质量广告内容,支持超过20秒的视频输出,并具备稳定的手部动作与丰富的面部表情。该版本可将产品图片转化为具有吸引力的动态视频,支持虚拟数字人与产品的互动,适用于电商、品牌宣传及短视频广告等多种场景,有助于提升内容创作效率并降低成本。
Goku的主要功能
- 文本到图像(Text-to-Image):根据文本描述生成高质量图像,保证图像细节丰富且与输入文本高度一致。
- 文本到视频(Text-to-Video):根据文本生成连贯的视频内容,画面流畅,视觉效果出色。
- 图像到视频(Image-to-Video):基于静态图像生成动态视频,保持原图风格和语义一致性,适用于动画和视频内容创作。
- 广告视频生成(Goku+):支持高质量广告视频生成,可实现人物与产品的自然互动,显著降低制作成本。
- 虚拟数字人视频生成:生成逼真度高的虚拟数字人视频,适用于虚拟主播、客服等场景。
- 多模态生成:支持图像、视频和文本的联合生成,利用共享潜在空间和全注意力机制处理复杂的时空依赖关系。
Goku的技术原理
- 图像-视频联合VAE:采用3D联合图像-视频变分自编码器(VAE),将图像和视频压缩至共享潜在空间,便于统一处理多种媒体格式。
- Transformer架构:模型包含2B和8B参数的Transformer结构,基于全注意力机制处理复杂时空依赖关系。
- 校正流公式:基于Rectified Flow算法,通过线性插值在先验分布与目标数据分布之间进行训练,提升收敛速度与理论稳定性。
- 多阶段训练策略:包括图文对齐预训练、图像-视频联合训练和模态微调,逐步提升生成质量。
- 大规模高质量数据集:研究人员构建了包含3600万视频和1.6亿图像的大规模数据集,提高模型训练效果。
- 高效的训练基础设施:采用并行策略、细粒度激活检查点技术、容错机制等,提升训练效率和稳定性。
Goku的项目地址
- 项目官网:https://saiyan-world.github.io/goku/
- Github仓库:https://github.com/Saiyan-World/goku
- HuggingFace模型库:https://huggingface.co/datasets/saiyan-world/Goku-MovieGenBench
- arXiv技术论文:https://arxiv.org/pdf/2502.04896
Goku的应用场景
- 广告视频制作:支持从文本或产品图片生成高质量广告视频,适用于电商和品牌宣传。
- 虚拟数字人视频生成:可生成超现实的人类视频,适合用于虚拟主播或客服。
- 内容创作:适用于动画、自然风光、动物行为等内容生成,为创作者提供灵感。
- 教育与培训:可用于制作生动的教学视频,提升学习体验。
- 娱乐产业:可应用于电影、电视剧和动画制作,提供高质量的视频内容。
发表评论 取消回复