LayerDiffusion是什么

LayerDiffusion(现更名为LayerDiffuse)是一种利用大规模预训练的潜在扩散模型(如Stable Diffusion)生成透明图像的技术,由斯坦福大学的研究人员Lvmin Zhang(即ControlNet的作者张吕敏)和Maneesh Agrawala共同提出。该技术引入了“潜在透明度”的概念,将图像的alpha通道的透明度信息编码到潜在空间中,使原本用于生成非透明图像的模型能够生成具有透明度的图像。

借助LayerDiffusion,用户可以直接快速生成背景透明的免抠图片,而无需先生成图片再利用其他AI技术进行抠图。

LayerDiffusion的官网入口

LayerDiffusion的功能特性

  • 生成透明图像:LayerDiffusion能够生成具有透明度的图像,这使得它可以创建具有alpha通道的图像,其中alpha通道定义了图像中每个像素的透明度。
  • 生成多个透明图层:除了单个透明图像,LayerDiffusion还能够生成多个透明图层。这些图层可以独立生成,也可以根据特定的条件(如前景或背景)生成,并且可以混合在一起以创建复杂的场景。
  • 条件控制生成:LayerDiffusion支持条件控制生成,可以根据透明图像生成前景或背景,为创建特定场景的图像提供了灵活性。
  • 图层内容结构控制:用户还可以将LayerDiffusion与ControlNet控制框架结合使用,对图层内容进行结构控制,以指导图层、布局、元素和对象形状等。
  • 重复迭代组合图层:LayerDiffusion可以通过重复背景条件前景模型来迭代地组合多个层,以增量地构建具有任意数量的透明图层的组合图像。
  • 高质量的图像输出:通过将透明度作为潜在偏移量添加到预训练模型的潜在空间中,LayerDiffusion能够在不显著改变原始潜在分布的情况下,保持预训练模型的高质量输出。

LayerDiffusion的工作原理

  1. 潜在空间的准备:首先,LayerDiffusion使用预训练的潜在扩散模型(如Stable Diffusion)的潜在空间,该潜在空间是通过变分自编码器(VAE)将RGB图像编码得到的。为了支持透明度,LayerDiffusion在潜在空间中引入了一个额外的维度(潜在透明度),用于表示图像的alpha通道(透明度信息)。
  2. 潜在透明度的编码和解码:LayerDiffusion训练两个独立的神经网络:一个潜在透明度编码器和一个潜在透明度解码器。编码器接收原始图像的RGB和alpha通道,并将透明度信息编码为一个潜在偏移量,这个偏移量被添加到潜在空间的表示中。解码器则从调整后的潜在表示中提取透明度信息,并将其解码回原始的alpha通道。
  3. 潜在空间的调整:为了确保添加的透明度信息不会破坏原始潜在空间的分布,LayerDiffusion通过潜在偏移量来调整潜在表示。这个过程涉及到一个“无害性”度量,即通过比较原始预训练模型的解码器对调整后潜在表示的解码结果,来评估潜在偏移量是否对模型的重建能力造成了破坏。
  4. 扩散模型的微调:在潜在空间中引入透明度信息后,LayerDiffusion对原始的扩散模型进行微调,使其能够在新的潜在空间中生成透明图像。这个过程涉及到训练扩散模型,使其能够学习如何在添加噪声的过程中保留透明度信息。
  5. 多图层生成:LayerDiffusion还扩展了其能力,以支持生成多个透明图层。这是通过共享注意力机制和低秩适应(LoRAs)来实现的,确保不同图层之间的一致性和和谐混合。
  6. 数据集的准备和训练:为了训练模型,研究者们收集了大量透明图像(由100万张透明图像组成,涵盖多种内容主题和风格),这些数据通过人类参与的收集方案获得。基于该数据集,模型被训练以生成高质量的透明图像和图层。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部