详细内容或原文请订阅后点击阅览
使用 MMD-VAE 进行表示学习
与 GAN 一样,变分自动编码器 (VAE) 通常用于生成图像。然而,VAE 增加了一个额外的承诺:即对底层潜在空间进行建模。在这里,我们首先看一个最大化证据下限的典型实现。然后,我们将其与 Info-VAE(信息最大化 VAE)系列中较新的竞争对手之一 MMD-VAE 进行比较。
来源:RStudio AI博客最近,我们展示了如何使用生成对抗网络 (GAN) 生成图像。GAN 可能会产生惊人的结果,但其基本原则是:所见即所得。有时,这可能就是我们想要的一切。在其他情况下,我们可能对实际建模域更感兴趣。我们不只是想生成看起来逼真的样本 - 我们希望我们的样本位于域空间中的特定坐标处。
生成图像例如,假设我们的域是面部表情的空间。那么我们的潜在空间可能被认为是二维的:根据潜在的情绪状态,表情在正负尺度上变化。同时,它们的强度也不同。现在,如果我们在一组充分覆盖范围的面部表情上训练 VAE,并且它确实“发现”了我们假设的维度,那么我们可以使用它来生成潜在空间中以前不存在的点(即面部)的化身。
变分自动编码器类似于概率图模型,因为它们假设一个潜在空间负责观察,但不可观察。它们类似于普通自动编码器,因为它们压缩然后再次解压缩输入域。然而,与普通自动编码器相比,这里的关键点是设计一个损失函数,允许在潜在空间中获得信息表示。
简而言之
在标准 VAE(Kingma 和 Welling 2013)中,目标是最大化证据下限(ELBO):
(Kingma 和 Welling 2013) Kingma 和 Welling 2013\[ELBO\ = \ E[log\ p(x|z)]\ -\ KL(q(z)||p(z))\]
\[ELBO\ = \ E[log\ p(x|z)]\ -\ KL(q(z)||p(z))\] 重建损失 \(\beta\) (Burgess 等人 2018) Burgess等2018 (Zhao、Song 和 Ermon 2017) Zhao、Song 和 Ermon 2017 (Zhao、Song 和 Ermon 2017) Zhao、Song 和 Ermon 2017 分布 最大均值差异 (Zhao、Song 和 Ermon 2017) Zhao、Song 和 Ermon 2017 教程我们今天的目标
Fashion MNIST Keras 文档keras
<-
(
)