文本到视频

ID

ID-Animator是一款由腾讯光子工作室、中科大和中科院合肥物质科学研究院联合开发的零样本人类视频生成技术。它能够根据单张参考面部图像生成个性化视频，并根据文本提示调整视频内容。ID-Animator通过结合预训练的文本到视频扩散模型和轻量级面部适配器，实现高效的身份保真视频生成。其主要功能包括视频角色修改、年龄和性别调整、身份混合以及与ControlNet等现有条件模块的兼容性。

AI项目与工具 2024年01月01日 67 点赞 0 评论 606 浏览

Mora

Mora是一个多智能体框架，专为视频生成任务设计，通过多个视觉智能体的协作实现高质量视频内容的生成。主要功能包括文本到视频生成、图像到视频生成、视频扩展与编辑、视频到视频编辑以及视频连接。尽管在处理大量物体运动场景时性能稍逊于Sora，Mora仍能在生成高分辨率视频方面表现出色。

AI项目与工具 2024年01月01日 75 点赞 0 评论 660 浏览

Open-Sora是一个开源视频生成模型，基于DiT架构，通过三个阶段的训练（大规模图像预训练、大规模视频预训练和高质量视频数据微调），生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT（Spatial-Temporal Diffusion Transformer）核心组件，利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程，供

AI项目与工具 2024年01月01日 97 点赞 0 评论 485 浏览

AtomoVideo

AtomoVideo是一款高保真图像到视频生成框架，能够从静态图像生成高质量视频内容。它通过多粒度图像注入和高质量数据集及训练策略，保证生成视频与原始图像的高度一致性和良好的时间连贯性。此外，AtomoVideo还支持长视频生成、文本到视频生成以及个性化和可控生成等功能。

AI项目与工具 2024年01月01日 32 点赞 0 评论 497 浏览

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 579 浏览

VideoCrafter2

VideoCrafter2 是一款由腾讯AI实验室开发的视频生成模型，通过将视频生成过程分解为运动和外观两个部分，能够在缺乏高质量视频数据的情况下，利用低质量视频保持运动的一致性，同时使用高质量图像提升视觉质量。该工具支持文本到视频的转换，生成高质量、具有美学效果的视频，能够理解和组合复杂的概念，并模拟不同的艺术风格。

AI项目与工具 2024年01月01日 49 点赞 0 评论 470 浏览