VAE

HunyuanVideo

HunyuanVideo是一款由腾讯开源的视频生成模型,具备130亿参数量,支持物理模拟、高文本语义还原、动作一致性和电影级画质等功能。它通过时空压缩的潜在空间训练,融合Causal 3D VAE与Transformer架构,实现图像和视频的统一生成,广泛应用于电影制作、音乐视频创作、游戏开发以及教育等领域。

MuCodec

MuCodec是一款由清华大学等机构联合研发的超低比特率音乐编解码工具,具备音乐压缩、特征提取、离散化处理及流匹配重建等功能。该工具能够有效压缩音乐文件,在极低比特率下仍能保证高保真度,适用于多种应用场景如在线音乐流媒体服务、音乐下载、语言模型构建以及移动设备优化等。

DanceFusion

DanceFusion是一款由清华大学开发的开源框架,专注于音频驱动的舞蹈动作生成与重建。它采用分层时空Transformer-VAE和扩散模型,能够处理不完整或嘈杂的数据,生成与音乐高度同步的逼真舞蹈动作。该工具支持多种应用场景,包括内容创作、虚拟现实、互动娱乐、舞蹈教育以及动画制作等,展现了其在多领域的应用价值。

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具,支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能,兼容U-Net和DiT架构,并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程,提升生成质量与可控性,适用于内容创作、电影制作、广告营销、教育培训等多个领域。

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

Tora

Tora是阿里推出的一个强大的视频生成工具,它通过集成多种条件来创造高质量的视频内容。其主要优势在于对运动轨迹的精确控制和对物理世界运动的真实模拟,这使得Tora在视频内容创...