屏蔽扩散:使用稀疏驱除态生成新颖和多样的图像

扩散模型正在生成越来越现实的图像。但是,当用相同提示反复反复发电图像时,从业人员通常会获得相同的,极为怀疑的模式的轻微变化。结果,大多数模型无法重新折断数据中固有的多样性,这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法,可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。

来源:Apple机器学习研究

文本到图像扩散模型的采用引起了人们对可靠性的担忧,并在校准、公平性或计算效率等各种指标下受到严格审查。我们在这项工作中重点关注部署这些模型时出现的两个问题:提示图像时缺乏多样性,以及从训练集中重新创建图像的趋势。为了解决这两个问题,我们提出了一种方法,引导预训练扩散模型的采样轨迹落在参考集之外的图像上。我们通过在整个生成轨迹中向扩散 SDE 添加排斥项来实现这一点,只要预计路径过于接近屏蔽参考集中的图像,就会触发排斥项。我们的方法是稀疏的,因为这些排斥项在大多数时间为零且不活跃,在生成轨迹的末尾更是如此。我们的方法名为 SPELL(用于稀疏排斥性),可以与包含受保护图像的静态参考集一起使用,也可以通过在每个时间步使用批次内同时生成的预期图像以及之前生成的批次的图像更新该集来动态地使用。我们表明,在流行的扩散模型中添加 SPELL 可以提高其多样性,同时对其 FID 影响很小,并且比其他最近的免训练多样性方法表现相对更好。我们还演示了 SPELL 如何通过将 ImageNet 中的所有 120 万图像视为受保护集来确保屏蔽生成远离大量受保护图像。