DiTCtrl

简介：DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具，能够利用多个文本提示生成连贯且高质量的视频内容，无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡，同时在MPVBench基准上表现出色，适用于电影、游戏、广告及新闻等多个领域。

AI小编 753 阅读 0 评论 18 点赞

项目地址

DiTCtrl是一种基于多模态扩散变换器（MM-DiT）架构的视频生成方法，由香港中文大学与腾讯等机构联合研发。该方法能够在不依赖额外训练的情况下，通过多个文本提示生成连贯的视频内容，同时保持内容和运动的一致性。通过分析MM-DiT的注意力机制，DiTCtrl引入了KV共享和潜在混合策略，实现了不同提示间的平滑过渡，提升了视频生成的质量和自然度。在MPVBench基准测试中，DiTCtrl展现了卓越的性能，且保持了较高的计算效率。

本文分类：AI项目与工具
本文标签：多模态视频生成文本提示 KV共享潜在混合注意力机制 MPVBench 零样本生成扩散模型多提示
浏览次数：753 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9732.html

评论列表共有 0 条评论

暂无评论

DiTCtrl

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复