生成的AI模型和社交媒体的兴起引发了图像编辑技术的广泛兴趣。现实且可控的图像编辑现在对于内容创建,营销和娱乐等应用是必不可少的。在大多数编辑过程中的一个关键步骤是图像合成,无缝地将前景对象与背景图像集成。然而,图像构成的挑战带来了许多挑战,包括结合新的阴影或反射,照明错位,不自然的前景对象边界,并确保对象的姿势,位置和刻度在语义上是连贯的。以前关于图像合成的作品[5,30,32,59,61]专注于特定的子任务,例如图像融合,协调,对象放置或阴影一代。更多的方法[9,36,50,62]表明,可以使用扩散模型同时处理一些单独的组合方面(即,颜色协调,重新定位,对象几何调整和阴影/反射生成)[18,46]。这种方法通常以自我监督的方式进行训练,掩盖地面真相图像中的对象,并将蒙版的图像用作输入[9,62],或者在反向扩散过程中仅在掩模区域内deno [9,50]。因此,在本文中,我们提出了一个生成图像合成模型,该模型超出了掩码,甚至使用空掩码,在这种情况下,模型将自然位置在适合尺度的自然位置中自动合成对象。我们的模型是图像合成的第一个端到端解决方案,同时解决了图像合成的所有子任务,包括对象放置。因此,在推理过程中需要掩模作为输入,导致了几个限制:(i)对普通用户进行精确掩码可能是不乏味的,并且可能会导致不自然的复合图像,具体取决于输入蒙版的位置,规模和形状; (ii)掩模区域限制了生成,其训练数据不考虑对象效应,从而限制了合成适当效果的能力,例如长阴影和反射; (iii)物体附近的背景区域往往与原始背景不一致,因为该模型在面具覆盖的情况下不会看到这些区域。为了实现此目的,我们首先使用图像介绍来创建包括图像三重态的训练数据(前景对象,完整的背景图像和
主要关键词