CreatiLayout 是由复旦大学与字节跳动联合研发的一种布局到图像生成技术(Layout-to-Image, L2I)。该技术基于一个名为 LayoutSAM 的大规模布局数据集,包含 270 万对图像与文本以及 1070 万个实体标注,每个实体都详细描述了颜色、形状和纹理等属性。其核心技术是 SiamLayout 框架,将布局信息作为独立模态处理,并通过 MM-DiT 架构中的 MM-Attention 实现与图像模态的交互,有效缓解了多模态之间的竞争问题。同时,CreatiLayout 引入了 LayoutDesigner,这是一个基于大语言模型的工具,支持用户通过多种方式(如中心点、掩码、草图和文本)生成和优化布局。

主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能够生成高分辨率且细节可控的图像。
  • 布局生成与优化:通过 LayoutDesigner 工具,用户可以输入多种形式的信息(如草图、文本、掩码等),以生成并优化布局。
  • 大规模数据支持:依托 LayoutSAM 数据集,模型具备丰富的训练数据,涵盖大量图像与实体标注。
  • 多模态交互机制:将布局信息作为独立模态,实现与图像和文本的高效交互。

技术原理

  • 孪生多模态扩散变换器:用于处理图像、文本和布局等多种信息,提升图像生成的精度与可控性。
  • SiamLayout 框架:将布局信息与其他模态分离处理,增强布局对图像生成的指导作用。
  • LayoutDesigner:基于大语言模型,辅助用户进行布局设计与优化。

项目资源

应用场景

  • 宣传海报制作:适用于快速生成符合需求的高质量宣传图像。
  • 家具摆放优化:可用于室内设计,精确控制家具的位置与尺寸。
  • 视觉效果创作:适合游戏开发中探索多样化的视觉风格。
  • 教学材料制作:可帮助教师生成图文结合的教学内容。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部