视频

Index

Index-AniSora是由哔哩哔哩开发的动漫视频生成模型,支持多种动画风格的生成,涵盖番剧、国创、VTuber等内容。其核心技术包括扩散模型、时空掩码模块和Transformer架构,具备图像到视频生成、帧插值、局部引导等能力。模型提供高质量数据集,适用于动画制作、创意验证、教育及营销等多个领域。

SketchVideo

SketchVideo是一款基于草图和文本提示的视频生成与编辑框架,由多所高校与企业联合研发。它利用DiT模型和草图控制网络,实现对视频内容的精细控制,支持动态调整与细节保留。该工具适用于多种场景,如影视制作、教育、游戏开发等,具备高效生成与高质量输出能力。

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

Animon

Animon 是日本 Animon Dream Factory 推出的全球首个专注于动漫制作的 AI 视频生成平台。它结合日本传统动漫美学与尖端 AI 技术,用户只需上传一张插画或 CG 图片并输入动作描述,即可在 3 分钟内生成 5 秒的动画视频。平台具备专业二次元质感、快速生成、无限生成与低成本等特点,适用于二次元内容创作、创意尝试、前期制作、动画资源生成和动画教学等场景。

Veo 3

Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。

Flow

Flow是谷歌推出的AI电影制作工具,整合了Veo 3、Imagen 4和Gemini 2.5等多个AI模型,能根据文本提示生成完整的电影场景或短片,保持连贯性。用户可通过“Camera Controls”操作镜头,“Scenebuilder”编辑场景,“Asset Management”管理创意元素,并通过“Flow TV”学习交流。目前仅对美国的谷歌AI Pro和AI Ultra订阅用户开放。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

DreamGen

DreamGen是英伟达推出的机器人学习技术,基于AI视频世界模型生成合成数据,使机器人能在梦境中学习新技能。它通过微调视频世界模型、生成虚拟数据、提取虚拟动作和训练下游策略四步流程,实现机器人在新环境中的行为和环境泛化。DreamGen无需大量真实数据,仅凭文本指令即可完成复杂任务,提升学习效率和泛化能力。其支持多种机器人系统和策略架构,适用于工业生产、家庭服务、医疗护理等多个领域。

Sparkify

Sparkify是谷歌推出的AI动画视频生成工具,基于Gemini 2.5和Veo 2模型。用户输入问题或复杂概念后,Sparkify能在2分钟内生成直观的动画短视频,讲解知识点。其多模态处理能力结合Google Search数据,确保内容准确且与最新信息同步。适用于教育、科普和企业培训等领域,提升理解效率和传播效果。目前处于内测阶段,可通过官网加入等候列表。

MoviiGen 1.1

MoviiGen 1.1是由ZulutionAI推出的专注于生成电影级画质视频的AI模型,基于Wan2.1微调而成。它在氛围营造、镜头运动和物体细节保留方面表现优异,支持720P和1080P分辨率,适用于高保真场景和专业电影应用。模型具备提示扩展功能,可优化生成效果,并采用序列并行与环形注意力等技术提升性能。其应用场景包括电影制作、广告、游戏开发、VR/AR及教育等领域。