文本到图像扩散生成模型可以以繁琐的及时工程为代价产生高质量的图像。可以通过引入布局条件来提高可控性,但是现有方法缺乏布局编辑能力和对对象属性的细粒度控制。多层生成的概念具有解决这些局限性的巨大潜力,但是同时生成图像实例与场景组成限制了控制对细粒对象属性的控制,在3D空间和场景操作能力中相对定位。在这项工作中,我们提出了一种新型的多阶段生成范式,该范式专为细粒度的控制,灵活性和互动性而设计。为了确保对实例属性的控制,我们设计了一个新颖的训练范式,以使扩散模型适应带有透明度信息的RGBA图像,以生成孤立的场景组件。为了构建复杂的图像,我们采用了这些预生成的实例,并引入了一个多层复合生成过程,该过程平滑地组件在现实的场景中。我们的实验表明,我们的RGBA扩散模型能够生成具有对对象属性的精确控制的多样化和高质量实例。通过多层组成,我们证明了我们的方法允许从高度复杂的提示中构建和操纵图像,并通过对物体外观和位置进行精细的控制,从而获得比竞争方法更高的控制程度。
主要关键词