扩散模型,简单地解释

从噪声到艺术:如何使用扩散模型生成高质量的图像The Post Exfusion模型,首先出现在数据科学上。

来源:走向数据科学

生成的AI是我们今天听到的最受欢迎的术语之一。最近,涉及文本,图像,音频和视频生成的生成AI应用程序激增。

生成ai

在图像创建方面,扩散模型已成为内容生成的最新技术。尽管它们是在2015年首次引入的,但他们已经看到了很大的进步,现在是Dalle,Midjourney和Clip等知名模型中的核心机制。

扩散
本文的目标是介绍扩散模型背后的核心思想。这种基本的理解将有助于掌握复杂扩散变体中使用的更多高级概念,并在训练自定义扩散模型时解释超参数的作用。

类比物理

让我们想象一杯透明的水。例如,如果我们添加少量的另一种带有黄色的液体,会发生什么?黄色液体将逐渐均匀地散布在整个玻璃中,所得的混合物将采用略微透明的黄色色调。

所述过程称为正向扩散:我们通过添加少量另一种液体来改变环境状态。但是,执行反向扩散是否同样容易 - 将混合物恢复到原始状态会很容易吗?事实证明不是。在最佳情况下,实现这将需要高度复杂的机制。

正向扩散 反向扩散

将类比应用于机器学习

扩散也可以应用于图像。想象一下狗的高质量照片。我们可以通过逐渐添加随机噪声来轻松地改变此图像。结果,像素值将会改变,使图像中的狗降低甚至无法识别。这种转换过程称为正向扩散。

来源:扩散模型:方法和应用的全面调查
扩散模型:对方法和应用的全面调查

正向扩散