AI视频生成

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题，并采用部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

AI项目与工具 2025年06月11日 11 点赞 0 评论 484 浏览

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架，专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型，结合开放域数据与高质量游戏数据，通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持，适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

AI项目与工具 2025年06月12日 31 点赞 0 评论 489 浏览

ImageToVideo AI

ImageToVideo AI 是一款基于人工智能的图像转视频工具，能够将静态图片转化为动态视频。通过智能分析图像内容并结合用户输入的文本指令，可添加动画、转场、音乐、字幕等元素，生成高质量、富有表现力的视频。支持多种格式输出，提供丰富的模板和自定义选项，适用于个人创作、内容制作、教育及广告等多种场景，提升视频制作效率与视觉效果。

AI项目与工具 2025年06月12日 80 点赞 0 评论 491 浏览

ContentV

ContentV是字节跳动开源的80亿参数文生视频模型框架，通过替换Stable Diffusion 3.5 Large的2D-VAE为3D-VAE并引入3D位置编码，提升视频生成能力。采用多阶段训练策略和流匹配算法，实现高效训练。支持文本到视频生成、自定义视频参数、风格迁移与融合、视频续写与修改等功能，适用于视频内容创作、游戏开发、VR/AR和特效制作等场景。

AI项目与工具 2025年06月11日 45 点赞 0 评论 491 浏览

DreaMoving

DreaMoving是一个基于扩散模型的人类视频生成框架，由阿里巴巴集团研究团队开发。该框架通过视频控制网络（Video ControlNet）和内容引导器（Content Guider）实现对人物动作和外观的精确控制，允许用户通过文本或图像提示生成个性化视频内容。其主要功能包括定制化视频生成、高度可控性、身份保持、多样化的输入方式以及易于使用的架构设计。DreaMoving广泛应用于影视制作、游

AI项目与工具 2024年01月01日 93 点赞 0 评论 492 浏览

Pika 2.0

Pika 2.0是一款由Pika Labs开发的AI视频生成工具，具备强大的文本对齐、动作渲染及场景元素整合功能。它能将详细提示转化为连贯且富有想象力的视频剪辑，同时提供自然的动作效果和可信的奇幻物理表现。此外，Pika 2.0支持用户上传和定制化场景元素，通过先进的图像识别技术实现无缝集成，为创作者提供更精细的控制权。这款工具适用于媒体娱乐、电商、教育、工业、医疗和个人创作等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 492 浏览