使用狄利克雷过程混合模型对文档和高斯数据进行聚类

本文是使用 DPMM 进行聚类教程的第五部分。在之前的文章中,我们详细介绍了该方法的理论背景,并描述了它的数学表示和构建方法。在这篇文章中,我们将尝试通过介绍两个模型将理论与实践联系起来 […]

来源:DatumBox - 机器学习、统计和软件开发博客

本文是使用 DPMM 进行聚类的教程的第五部分。在之前的文章中,我们详细介绍了该方法的理论背景,并描述了它的数学表示和构建方法。在这篇文章中,我们将尝试通过介绍两个 DPMM 模型将理论与实践联系起来:可用于聚类高斯数据的狄利克雷多元正态混合模型和用于聚类文档的狄利克雷多项式混合模型。

使用 DPMM 进行聚类

更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。

更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。 下载

1. 狄利克雷多元正态混合模型

我们将研究的第一个狄利克雷过程混合模型是狄利克雷多元正态混合模型,它可用于对连续数据集执行聚类。混合模型定义如下:

等式 1:狄利克雷多元正态混合模型

等式 1:狄利克雷多元正态混合模型

从上面我们可以看出,特定模型假设生成分布是多项高斯分布,并使用中餐馆过程作为聚类分配的先验。此外,对于基本分布 G0,它使用正态-逆-Wishart 先验,它是具有未知均值和协方差矩阵的多元正态分布的共轭先验。下面我们介绍混合模型的图形模型:

0 共轭先验

图 1:Dirichlet 多元正态混合模型的图形模型

图 1:Dirichlet 多元正态混合模型的图形模型 折叠吉布斯采样 0 0 0 0 0 0 0 ii