CreatiLayout 是由复旦大学与字节跳动联合研发的一种布局到图像生成技术(Layout-to-Image, L2I)。该技术基于一个名为 LayoutSAM 的大规模布局数据集,包含 270 万对图像与文本以及 1070 万个实体标注,每个实体都详细描述了颜色、形状和纹理等属性。其核心技术是 SiamLayout 框架,将布局信息作为独立模态处理,并通过 MM-DiT 架构中的 MM-Attention 实现与图像模态的交互,有效缓解了多模态之间的竞争问题。同时,CreatiLayout 引入了 LayoutDesigner,这是一个基于大语言模型的工具,支持用户通过多种方式(如中心点、掩码、草图和文本)生成和优化布局。
主要功能
- 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能够生成高分辨率且细节可控的图像。
- 布局生成与优化:通过 LayoutDesigner 工具,用户可以输入多种形式的信息(如草图、文本、掩码等),以生成并优化布局。
- 大规模数据支持:依托 LayoutSAM 数据集,模型具备丰富的训练数据,涵盖大量图像与实体标注。
- 多模态交互机制:将布局信息作为独立模态,实现与图像和文本的高效交互。
技术原理
- 孪生多模态扩散变换器:用于处理图像、文本和布局等多种信息,提升图像生成的精度与可控性。
- SiamLayout 框架:将布局信息与其他模态分离处理,增强布局对图像生成的指导作用。
- LayoutDesigner:基于大语言模型,辅助用户进行布局设计与优化。
项目资源
- 官网:https://creatilayout.github.io
- Github仓库:https://github.com/HuiZhang0812/CreatiLayout
- arXiv论文:https://arxiv.org/pdf/2412.03859
- 在线体验Demo:https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
应用场景
- 宣传海报制作:适用于快速生成符合需求的高质量宣传图像。
- 家具摆放优化:可用于室内设计,精确控制家具的位置与尺寸。
- 视觉效果创作:适合游戏开发中探索多样化的视觉风格。
- 教学材料制作:可帮助教师生成图文结合的教学内容。
发表评论 取消回复