AI视频生成

Diffuse

Diffuse 是一款基于 AI 技术的视频编辑工具,支持用户通过自拍照生成个性化虚拟角色,并结合文本或图像生成高质量视频内容。其功能包括动作模仿、文本到视频生成、预剪辑选择及提示编辑,适用于社交媒体、广告、教育等多种场景。该工具专注于移动端使用,提升视频创作的便捷性与灵活性。

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。

VideoWorld

VideoWorld是由北京交通大学、中国科学技术大学与字节跳动合作开发的深度生成模型,能够通过未标注视频数据学习复杂知识,包括规则、推理和规划能力。其核心技术包括自回归视频生成、潜在动态模型(LDM)和逆动态模型(IDM),支持长期推理和跨环境泛化。该模型在围棋和机器人控制任务中表现优异,且具备向自动驾驶、智能监控等场景扩展的潜力。

清影

清影2.0是一款基于CogVideoX模型的AI视频生成工具,支持4K超高清视频生成,具备强大文本理解能力与多通道输出功能。集成CogSound模型提供音效匹配,支持任意比例输出,提升创作灵活性。适用于教育、营销、娱乐等多个领域,提供高效、高质量的视频生成服务。

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

Video Alchemist

Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧

Luma Ray2

Luma Ray2 是 Luma AI 推出的视频生成模型,基于多模态架构,支持文本和图像输入,生成高质量、连贯的视频内容。相较前代,视频时长从 5 秒提升至 1 分钟,支持电影级运镜和逼真特效,适用于影视制作、广告、游戏动画及教育等多个领域。

Product Avatar

Product Avatar 是一款由 TopView 推出的 AI 工具,能够将产品图片转化为由虚拟人物手持展示的视频内容。用户只需上传图片并选择模板,即可生成高质量视频,无需真人模特。支持多语言与唇形同步,适用于电商、社交媒体及广告营销等场景,帮助品牌提升产品展示效果与全球市场沟通能力。

Video Ocean V2.0

Video Ocean V2.0是一款由潞晨科技推出的AI视频生成平台,支持文生视频、图生视频和角色生视频等多种创作方式。平台具备高画质、多风格切换及视频续写、重试等编辑功能,适用于个人创作、自媒体、教育及影视前期构思等多个场景,提升视频制作效率与创意表达能力。