TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化图像生成方法。它能够从单张图像中分离复杂的视觉元素和属性,并从多张图像中提取概念,实现无缝组合生成。该技术支持多种概念类型,包括物体、配饰、材质、姿势和光照等,突破了现有技术在概念范围上的限制。TokenVerse 通过优化框架,在 DiT 模型的调制空间中为每个词汇找到独特的调制方向,从而实现对复杂概念的局部控制。其无需微调模型权重的设计,使得个性化图像生成更加高效且保留了模型的先验知识,适用于设计师、艺术家及内容创作者在多种场景下的应用需求。
发表评论 取消回复