扩散模型脱颖而出:了解Dall-E和Midjourney背后的技术

了解最受欢迎的图像生成模型体系结构之一的技术方面。

来源:KDnuggets
作者的图像|意识形态图

生成的AI模型近年来已成为后起之秀,尤其是随着Chatgpt等大型语言模型(LLM)产品的引入。这些模型使用人类可以理解的自然语言可以处理输入并提供合适的输出。由于诸如Chatgpt之类的产品,其他形式的生成AI也已成为流行和主流。

chatgpt

产品(例如Dall-e和Midjourney)在生成AI繁荣的过程中变得流行,因为它们仅从自然语言输入中生成图像的能力。这些受欢迎的产品不会从无到有创建图像。相反,他们依靠称为扩散模型的模型。

dall-e Midjourney

在本文中,我们将揭开扩散模型的神秘面纱,以更深入地了解其背后的技术。我们将讨论基本概念,模型的工作原理以及如何训练。

好奇?让我们进入它。

#扩散模型基础

扩散模型是一类AI算法,属于生成模型的类别,旨在基于培训数据生成新数据。在扩散模型的情况下,这意味着它们可以从给定的输入中创建新图像。

但是,扩散模型通过与平常不同的过程生成图像,该过程添加模型然后从数据中删除噪声。用更简单的话来说,扩散模型会改变图像,然后改进它以创建最终产品。您可以将模型视为一种剥夺模型,因为它学会了从图像中消除噪音。

正式,使用Sohl-Dickstein等人的非平衡热力学的纸中首先出现了在纸上出现的扩散模型。 (2015)。本文介绍了使用称为受控的正向扩散过程的过程将数据转换为噪声的概念,然后训练模型以逆转过程并重建数据,这是降解过程。

使用非平衡热力学的深度无监督学习

//远期过程

//