机器学习“降临节日历”第五天:Excel 中的 GMM

本文介绍了高斯混合模型作为 k-Means 的自然扩展,通过方差和马哈拉诺比斯距离改进了距离测量方式。 GMM 没有将点分配给具有硬边界的簇,而是使用通过期望最大化算法(劳埃德方法的一般形式)学习的概率。使用简单的 Excel 公式,我们在 1D 和 2D 中逐步实现 EM,并可视化高斯曲线或椭圆在训练期间如何移动。均值转变、方差调整,形状逐渐围绕数据的真实结构稳定下来。GMM 提供了一种更丰富、更灵活的方式来建模集群,一旦该过程在电子表格中可见,它就会变得直观。机器学习“降临日历”第 5 天:Excel 中的 GMM 帖子首先出现在走向数据科学上。

来源:走向数据科学

在上一篇文章中,我们使用 K-Means 探索了基于距离的聚类。

上一篇文章

进一步:为了改进距离的测量方式,我们添加方差,以获得马哈拉诺比斯距离。

因此,如果 k-Means 是最近质心分类器的无监督版本,那么自然的问题是:

最近质心分类器

QDA 的无监督版本是什么?

这意味着像 QDA 一样,每个簇现在不仅需要通过其均值来描述,还需要通过其方差来描述(如果特征数量高于 2,我们还必须添加协方差)。但在这里,一切都是在没有标签的情况下学习的。

表示 方差 没有标签

所以你明白这个想法了,对吧?

那么,这个模型的名称是高斯混合模型 (GMM)...

高斯混合模型 (GMM)

GMM 和这些模型的名称...

正如通常的情况,模型的名称来自历史原因。如果模型没有放在一起,它们并不总是旨在突出模型之间的联系。

不同的研究人员、不同的时期、不同的用例……我们最终得到的名称有时隐藏了想法背后的真实结构。

这里,“高斯混合模型”这个名字仅仅意味着数据被表示为多个高斯分布的混合。

几种高斯分布的混合

如果我们遵循与 k-Means 相同的命名逻辑,那么将其称为 k-Gaussian Mixture 会更清楚

k 均值 k-高斯混合

因为,在实践中,我们不只使用均值,而是添加方差。我们可以只使用马氏距离,或者使用均值和方差的另一个加权距离。但高斯分布为我们提供了更容易解释的概率。

所以我们选择 k 个高斯分量。

k

顺便说一下,GMM 并不是唯一的。

机器学习框架

然后,很久以后,我们现在称为“机器学习”的领域出现了,并将所有这些模型重新组合到一个保护伞下。但名字没有改变。

机器学习风格 GMM QDA 1957