破解密度代码:为什么MAF在KDE Stalls

了解为什么自回旋流是高维datathe柱破裂密度代码的高密度估计工具:为什么MAF流向KDE Stalls首先出现在数据科学上的位置。

来源:走向数据科学

在高维密度估计中引起的主要问题之一是,随着我们的尺寸的增加,我们的数据变得更加稀疏。因此,对于依靠本地邻里估计的模型,我们需要成倍增加数据,因为我们的尺寸增加以继续获得有意义的结果。这被称为维度的诅咒。

在我上一篇关于密度估计的文章中,我证明了如何有效地将内核密度估计器(KDE)用于一维数据。但是,其性能在较高的维度下显着恶化。为了说明这一点,我进行了模拟,以确定在估计各个维度的多元高斯分布的密度时,KDE需要多少样本才能达到0.2的平均相对误差。使用Scott的规则选择带宽。结果如下:

上一篇文章

是正确的:在我的模拟中,要匹配一个维度仅22个数据点的准确性,您将需要在六个维度中超过360,000个数据点!更令人惊讶的是,在他的书多元密度估算中,大卫·斯科特(David W.

希望这足以说服您,内核密度估计器不是估计较高尺寸密度的理想选择。但是选择什么?

第2部分:归一化流程

一个有希望的替代方案是使流量归一化,我将重点关注的特定模型是掩盖的自回归流量(MAF)。

本节部分借鉴了乔治·帕帕马卡里奥斯(George Papamakarios)和巴拉吉·拉克斯米纳拉扬(Balaji Lakshminarayanan)的工作,如概率机器学习:凯文·P·墨菲(Kevin P.

概率机器学习:高级主题

更正式地假设以下内容:

其中j_ {f^{ - 1}}(x),在x上评估的f^{ - 1}的jacobian。

a