GroundingBooth 是由华盛顿大学圣路易斯分校、Adobe 和普渡大学的研究团队共同开发的先进文本到图像定制框架。该框架利用文本-图像对齐模块和遮罩交叉注意力机制,实现对前景主体和背景对象的空间精准对齐。GroundingBooth 能够生成兼具布局合理性、身份保留性和文本-图像一致性的个性化图像,并支持多主题定制,尤其在复杂场景中表现出色。作为首个实现主题驱动的前景生成与文本驱动的背景生成联合接地的技术,GroundingBooth 开创了高度定制化视觉内容创作的新路径。 GroundingBooth 的核心技术包括基于 CLIP 和 DINOv2 的特征提取、接地模块的布局整合以及遮罩交叉注意力层的应用,这些技术共同确保了生成图像的精确性与可控性。此外,该项目提供详细的开源资源和学术论文,供研究者进一步探索和应用。
发表评论 取消回复