文本到视频

ID

ID-Animator是一款由腾讯光子工作室、中科大和中科院合肥物质科学研究院联合开发的零样本人类视频生成技术。它能够根据单张参考面部图像生成个性化视频,并根据文本提示调整视频内容。ID-Animator通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现高效的身份保真视频生成。其主要功能包括视频角色修改、年龄和性别调整、身份混合以及与ControlNet等现有条件模块的兼容性。

Mora

Mora是一个多智能体框架,专为视频生成任务设计,通过多个视觉智能体的协作实现高质量视频内容的生成。主要功能包括文本到视频生成、图像到视频生成、视频扩展与编辑、视频到视频编辑以及视频连接。尽管在处理大量物体运动场景时性能稍逊于Sora,Mora仍能在生成高分辨率视频方面表现出色。

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

AtomoVideo

AtomoVideo是一款高保真图像到视频生成框架,能够从静态图像生成高质量视频内容。它通过多粒度图像注入和高质量数据集及训练策略,保证生成视频与原始图像的高度一致性和良好的时间连贯性。此外,AtomoVideo还支持长视频生成、文本到视频生成以及个性化和可控生成等功能。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

VideoCrafter2

VideoCrafter2 是一款由腾讯AI实验室开发的视频生成模型,通过将视频生成过程分解为运动和外观两个部分,能够在缺乏高质量视频数据的情况下,利用低质量视频保持运动的一致性,同时使用高质量图像提升视觉质量。该工具支持文本到视频的转换,生成高质量、具有美学效果的视频,能够理解和组合复杂的概念,并模拟不同的艺术风格。

MagicVideo

MagicVideo-V2是一款由字节跳动公司团队开发的AI视频生成模型和框架。该模型通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,实现了从文本到高保真视频的转换。生成的视频不仅具有高分辨率,而且在视觉质量和运动流畅度方面表现出色,为用户提供卓越的观看体验。

Snap Video

强大的文本到视频合成工具,它通过创新的技术架构和高效的深度学习模型,实现了高质量视频内容的生成。这款工具不仅在视频生成领域具有突破性,还为用户提供了一种全新的创作和表...

中科相生 – 数字克隆人

中科相生作为一个数字克隆人生产力工具,通过其先进的AI技术和用户友好的界面,为用户提供了一个高效、个性化的视频制作平台。

Arcads

Arcads是一个AI视频广告制作平台,它能将简单的文本或产品链接转换成引人入胜的短视频广告。这个工具特别适合追求效率和成本效益的品牌和营销团队,提供快速、多语言的视频广告创...