详细内容或原文请订阅后点击阅览
解释变分自动编码器
有没有想过变分自动编码器模型是如何工作的?继续阅读以找出答案。
来源:Another Datum潜在空间¶
¶您知道每个数字图像都应该包含一个数字。$\mathbb{R}^{28×28}$ 中的输入并不明确包含该信息。但它必须位于某个地方……那个地方就是潜在空间。
某处您可以将潜在空间视为 $\mathbb{R}^{k}$,其中每个向量包含绘制图像所需的 $k$ 条基本信息。假设第一维包含数字所代表的数字。第二维可以是宽度。第三维是角度。等等。
我们可以将生成图像的过程视为一个两步过程。首先,人们有意识或无意识地决定他要绘制的数字的所有属性。接下来,这些决定转化为笔触。
VAE 尝试对这个过程进行建模:给定一个图像 $x$,我们希望找到至少一个能够描述它的潜在向量;一个包含生成 $x$ 指令的向量。使用全概率定律将其公式化,我们得到 $P(x) = \int P(x|z)P(z)dz$。
全概率定律让我们将一些直觉融入方程式中:
- 积分意味着我们应该在整个潜在空间中搜索候选者。对于每个候选者 $z$,我们问自己:可以使用 $z$ 的指令生成 $x$ 吗?$P(x|z)$ 足够大吗?例如,如果 $z$ 编码了数字为 7 的信息,那么 8 的图像是不可能的。但是,1 的图像可能是可能的,因为 1 和 7 看起来很相似。我们找到了一个好的 $z$?很好!但是等一下……这个 $z$ 有可能吗?$P(z)$ 足够大吗?让我们考虑一张倒置的 7 的图像。描述类似 7 的潜在向量(其中角度维度设置为 180 度)将完美匹配。但是,那个 $z$ 不太可能,因为通常数字不是以 180 度角绘制的。