图像到视频

TIP

TIP-I2V是一个包含大量真实文本和图像提示的数据集，专为图像到视频生成领域设计。它涵盖了超过170万个独特的提示，并结合多种顶级图像到视频生成模型生成的视频内容。该数据集支持用户偏好分析、模型性能评估以及解决错误信息传播等问题，有助于推动图像到视频生成技术的安全发展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 362 浏览

WorldDreamer

WorldDreamer 是一种基于 Transformer 的通用世界模型，具备理解与预测物理世界动态变化的能力，专注于视频生成任务。它支持多种应用场景，包括文本到视频、图像到视频、视频编辑和动作序列生成，利用视觉 Token 化、Transformer 架构和多模态提示技术，实现了高效且高质量的视频生成。

AI项目与工具 2025年06月12日 16 点赞 0 评论 585 浏览

LeviTor

LeviTor是一款由多所高校和企业联合研发的图像到视频合成工具，它利用深度信息和K-means聚类点来控制视频中3D物体的轨迹，无需显式3D轨迹跟踪。通过高质量视频对象分割数据集训练，该工具能精准捕捉物体运动与交互，支持用户通过简单的2D图像操作实现复杂的3D效果，大幅降低了技术门槛，广泛应用于电影特效、游戏动画、虚拟现实等领域。

AI项目与工具 2025年06月12日 52 点赞 0 评论 563 浏览

FramePainter

FramePainter 是一款基于AI的交互式图像编辑工具，结合视频扩散模型与草图控制技术，支持用户通过简单操作实现精准图像修改。其核心优势包括高效训练机制、强泛化能力及高质量输出。适用于概念艺术、产品展示、社交媒体内容创作等场景，具备低训练成本和自然的图像变换能力。

AI项目与工具 2025年06月12日 70 点赞 0 评论 327 浏览

Goku

Goku是由香港大学与字节跳动联合开发的AI视频生成模型，支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本，专注于广告视频创作，具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构，适用于广告、教育、娱乐等多个领域，提升了内容创作效率与质量。

AI项目与工具 2025年02月11日 29 点赞 0 评论 618 浏览

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型，可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构，结合ControlMLP模块与注意力偏差技术，实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全，适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程，确保生成质量与稳定性。

AI项目与工具 2025年06月12日 38 点赞 0 评论 285 浏览

AnyCharV

AnyCharV是一款由多所高校联合研发的角色可控视频生成框架，能够将任意角色图像与目标场景结合，生成高质量视频。它采用两阶段训练策略，确保角色细节的高保真保留，并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型，具备良好的泛化能力，适用于影视制作、艺术创作、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 310 浏览

Phantom

Phantom是由字节跳动研发的视频生成框架，支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术，结合文本和图像提示，实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能，适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练，具备强大的跨模态理解和生成能力。

AI项目与工具 2025年06月12日 72 点赞 0 评论 455 浏览

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 工具，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可通过自定义相机轨迹生成多种宽高比的视频，支持最长 1000 帧的高质量输出。其核心技术包括生成式 AI、神经渲染和多视图一致性优化，确保视频在不同视角间过渡自然且保持 3D 一致性。适用于广告、内容创作及教育等多个领域。

AI项目与工具 2025年06月12日 61 点赞 0 评论 433 浏览

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准，支持3D、4D、图像到视频（I2V）和文本到视频（T2V）等多种模态。它从可控性、质量和动态性三个维度进行评估，涵盖3000个测试样本，包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能，适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用，为研究

AI项目与工具 2025年06月12日 87 点赞 0 评论 636 浏览

图像到视频

首页

图像到视频

列表

默认

浏览次数

发布日期

TIP