Seaweed-7B 是由字节跳动团队研发的一款视频生成模型,拥有约 70 亿参数。该模型具备强大的视频生成能力,能够根据文本描述、图像或音频输入生成高质量视频内容,支持多种分辨率和时长,适用于视频创作、动画制作、实时交互等多种场景。在设计上注重成本效益,通过优化训练策略和架构,使中等规模模型在性能上接近大型模型,从而降低计算资源消耗。 Seaweed-7B 支持多项核心功能,包括文本到视频、图像到视频、音频驱动视频生成、长镜头生成、连贯故事叙述、实时生成、高分辨率输出、相机控制以及物理一致性增强等。其技术基于变分自编码器(VAE)和扩散变换器(DiT),结合多阶段训练策略与优化技术,提升了生成效率和视频质量。此外,模型还通过数据清洗和合成数据增强训练效果,提升对复杂场景的理解与表现能力。 项目提供了官方网页和技术论文,便于进一步了解和研究。
发表评论 取消回复