语言引导的图像编辑扩散模型的最新进展通常由繁琐的及时工程设计,以精确表达所需的更改。从野外图像示例中对指导的直观替代呼吁,可以帮助用户将他们想象中的编辑栩栩如生。基于现代示例的编辑方法回避利用预先现有的大型文本对图像(TTI)模型所学到的丰富潜在空间,并以精心策划的目标功能来重新接受培训以完成任务。尽管有些有效,但这需要重要的构成资源,并且缺乏与不同的基本模型和任意示例计数的兼容性。在进一步研究中,我们还发现这些技术将用户控制限制在整个编辑区域中仅应用统一的全球变化。在本文中,我们介绍了一个新颖的框架,用于使用现成的扩散模型(称为像素)进行典范驱动的编辑,以通过对编辑进行粒状控制,从而在像素或区域水平上进行调整,从而实现自定义。我们的方法仅在插入期间运行,以促进模仿编辑,使用户能够从动态数量的参考图像或多模式提示中汲取灵感,并逐步合并所有变化,而无需重新调整或调整现有TTI模型。这种细粒度控制的能力开辟了一系列新的可能性,包括对单个对象的选择性修改和指定逐渐的空间变化。我们证明,像素可以很好地编辑高质量的编辑,从而显着改善了定量指标和人类评估。通过使高质量的图像编辑更易于访问,Pixels有可能在易于使用任何开源图像生成模型的情况下向更广泛的受众提供专业级的编辑。
主要关键词