使用强化学习训练扩散模型

使用强化学习训练扩散模型replay扩散模型最近已成为生成复杂高维输出的事实标准。您可能知道它们能够制作令人惊叹的 AI 艺术和超逼真的合成图像,但它们也在药物设计和连续控制等其他应用中取得了成功。扩散模型背后的关键思想是将随机噪声迭代地转换为样本,例如图像或蛋白质结构。这通常被激发为最大似然估计问题,其中模型被训练以生成尽可能接近训练数据的样本。然而,扩散模型的大多数用例并不直接与匹配训练数据有关,而是与下游目标有关。我们不只是想要一张看起来像现有图像的图像,而是一张具有特定外观的图像;我们不只是想要一个物理上合理的药物分子,而是想要一个尽可能有效的药物分子。在这篇文章中,我们展示了如何使用强化学习 (RL) 直接针对这些下游目标训练扩散模型。为此,我们针对各种目标对稳定扩散进行了微调,包括图像压缩性、人类感知的美学质量和提示图像对齐。最后一个目标使用来自大型视觉语言模型的反馈来提高模型在异常提示上的表现,展示了 AI 的强大能力

来源:BAIR
使用强化学习训练扩散模型

重播

扩散模型最近已成为生成复杂、高维输出的事实标准。您可能知道它们能够制作令人惊叹的 AI 艺术和超现实的合成图像,但它们也在药物设计和连续控制等其他应用中取得了成功。扩散模型背后的关键思想是将随机噪声迭代地转换为样本,例如图像或蛋白质结构。这通常被激发为最大似然估计问题,其中模型被训练以生成与训练数据尽可能接近的样本。

令人惊叹的 AI 艺术和超现实的合成图像 药物设计 连续控制 最大似然估计

但是,扩散模型的大多数用例并不直接与匹配训练数据有关,而是与下游目标有关。我们不只是想要一张看起来像现有图像的图像,而是一张具有特定外观的图像;我们不只是想要一个物理上合理的药物分子,而是想要一个尽可能有效的药物分子。在这篇文章中,我们展示了如何使用强化学习(RL)直接在这些下游目标上训练扩散模型。为此,我们对各种目标进行了稳定扩散微调,包括图像可压缩性、人类感知的美学质量和提示图像对齐。最后一个目标使用来自大型视觉语言模型的反馈来提高模型在异常提示上的性能,展示了如何使用强大的人工智能模型来相互改进,而无需任何人参与。

稳定扩散 大型视觉语言模型 强大的人工智能模型可用于相互改进

说明提示图像对齐目标的图表。它使用大型视觉语言模型 LLaVA 来评估生成的图像。

LLaVA

去噪扩散策略优化

现有算法 Nair 等人