无限惊喜 - Kullback-Leibler 散度的彩虹般个性

Kullback-Leibler 散度不仅用于训练变分自动编码器或贝叶斯网络(而且不仅仅是一个难以发音的东西)。它是信息论中的一个基本概念,被广泛应用于各种应用中。最有趣的是,它并不总是与约束、正则化或压缩有关。恰恰相反,有时它与新颖性、发现和惊喜有关。

来源:RStudio AI博客

在深度学习从业者中,Kullback-Leibler 散度(KL 散度)可能因其在训练变分自动编码器 (VAE) 中的作用而最为人所知。要学习信息丰富的潜在空间,我们不仅要优化以实现良好的重建。相反,我们还对潜在分布施加先验,并力求使它们保持接近 - 通常通过最小化 KL 散度来实现。

Kullback-Leibler 散度

在这个角色中,KL 散度就像一只看门狗;它是一个约束、规范的因素,如果拟人化,会显得严厉而严厉。然而,如果我们就此止步,我们只看到了它性格的一个方面,而错过了它的补充,即嬉戏、冒险和好奇的画面。在这篇文章中,我们将看看另一面。

虽然受到 Simon de Deo 的一系列推文的启发,列举了 KL 散度在众多学科中的应用,

我们并不希望在这里提供全面的写作 - 正如最初的推文中提到的那样,这个主题很容易占据整个学期的学习时间。

因此,这篇文章的更温和的目标是

    快速回顾 KL 散度在训练 VAE 中的作用,并提到具有相似特征的应用;说明其性格中更有趣、更冒险的“另一面”;并且以一种不那么有趣但 - 希望 - 有用的方式,将 KL 散度与交叉熵、互信息或自由能等相关概念区分开来。
  • 快速回顾 KL 散度在训练 VAE 中的作用,并提到具有相似特征的应用;
  • 来说明其性格中更有趣、更冒险的“另一面”;并且
  • 以一种不那么有趣但 – 希望 – 有用的方式,将 KL 散度与相关概念(如交叉熵、互信息或自由能)区分开来。
  • 不过,在此之前,我们先从定义和一些术语开始。

    简而言之,KL 散度

    \(p\) \(q\)

    \[\begin{equation}D_{KL}(p||q) = \sum\limits_{x} p(x) log(\frac{p(x)}{q(x)}) \tag{1}\end{equation}\]