文本引导的图像编辑可以在支持创意应用程序方面具有变革性的影响。关键挑战是生成忠于输入文本提示的编辑,同时与输入图像一致。我们提出了Imagen Edor,这是一种构建的级联扩散模型,通过对文本引导的图像插入的微调[36]构建。Imagen ed- Itor的编辑忠实于文本提示,这是通过使用对象探测器在培训期间提出涂料面罩来提出的。此外,成像编辑器在输入图像中通过对原始高分辨率图像进行调节管道来详细信息。为了证明定性和定量评估,我们介绍了EditBench,这是用于文本指导图像插入的系统基准。EditBench评估在Natu-ral和生成的图像上探索对象,属性和场景的图像。Through extensive human evaluation on EditBench, we find that object-masking during training leads to across- the-board improvements in text-image alignment – such that Imagen Editor is preferred over DALL-E 2 [ 31 ] and Stable Diffusion [ 33 ] – and, as a cohort, these models are better at object-rendering than text-rendering, and handle mate- rial/color/size attributes better than count/shape attributes.
主要关键词