DiTCtrl是一种基于多模态扩散变换器(MM-DiT)架构的视频生成方法,由香港中文大学与腾讯等机构联合研发。该方法能够在不依赖额外训练的情况下,通过多个文本提示生成连贯的视频内容,同时保持内容和运动的一致性。通过分析MM-DiT的注意力机制,DiTCtrl引入了KV共享和潜在混合策略,实现了不同提示间的平滑过渡,提升了视频生成的质量和自然度。在MPVBench基准测试中,DiTCtrl展现了卓越的性能,且保持了较高的计算效率。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部