ConsisID是由北京大学与鹏城实验室联合研发的文本到视频生成模型(Text-to-Video, IPT2V),通过频率分解技术确保视频中人物身份的高度一致性。该模型采用免调优的Diffusion Transformer(DiT)架构,结合低频全局特征与高频内在特征,利用分层训练策略生成高质量、可编辑且身份一致性强的视频内容。ConsisID在多个评估维度上表现优异,显著提升了身份一致性视频生成技术的水平。
ConsisID是由北京大学与鹏城实验室联合研发的文本到视频生成模型(Text-to-Video, IPT2V),通过频率分解技术确保视频中人物身份的高度一致性。该模型采用免调优的Diffusion Transformer(DiT)架构,结合低频全局特征与高频内在特征,利用分层训练策略生成高质量、可编辑且身份一致性强的视频内容。ConsisID在多个评估维度上表现优异,显著提升了身份一致性视频生成技术的水平。
发表评论 取消回复