ConsisID是由北京大学与鹏城实验室联合研发的文本到视频生成模型(Text-to-Video, IPT2V),通过频率分解技术确保视频中人物身份的高度一致性。该模型采用免调优的Diffusion Transformer(DiT)架构,结合低频全局特征与高频内在特征,利用分层训练策略生成高质量、可编辑且身份一致性强的视频内容。ConsisID在多个评估维度上表现优异,显著提升了身份一致性视频生成技术的水平。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部