Ingredients是一个基于多身份图像与视频扩散Transformer技术的视频生成框架,旨在实现高度定制化的视频创作。该框架由三个核心模块组成:面部提取器、多尺度投影器和ID路由器。面部提取器通过全局与局部视角捕捉人物面部特征;多尺度投影器将这些特征映射到视频扩散模型中,以确保身份信息的准确表达;ID路由器则动态分配和组合不同身份特征,提升视频生成的清晰度与一致性。通过多阶段训练策略,Ingredients能够在不依赖用户提示的情况下,生成具有高身份保真度和内容多样性的个性化视频。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部