基于狄利克雷分布的有限混合模型

这篇博文是关于狄利克雷过程混合模型的系列文章的第二部分。在上一篇文章中,我们概述了几种聚类分析技术,并讨论了使用它们时出现的一些问题/限制。此外,我们简要介绍了狄利克雷过程混合模型,并讨论了它们为什么 [...]

来源:DatumBox - 机器学习、统计和软件开发博客

这篇博文是狄利克雷过程混合模型系列文章的第二部分。在上一篇文章中,我们概述了几种聚类分析技术,并讨论了使用它们时出现的一些问题/限制。此外,我们简要介绍了狄利克雷过程混合模型,讨论了它们为什么有用,并介绍了它们的一些应用。

几种聚类分析技术概述

更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。

更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。 下载

狄利克雷过程混合模型一开始可能有点难以理解,主要是因为它们是具有许多不同表示的无限混合模型。幸运的是,解决这个问题的一个好方法是从具有狄利克雷分布的有限混合模型开始,然后转向无限混合模型。

因此,在本文中,我将简要介绍一些我们需要的重要分布,我们将使用它们构建具有多项似然模型的狄利克雷先验,然后我们将转向基于狄利克雷分布的有限混合模型。

1. Beta 分布

Beta 分布是一组连续分布,定义在 [0,1] 区间内。它由两个正参数 a 和 b 参数化,其形式在很大程度上取决于这两个参数的选择。

Beta 分布

图 1:不同 a、b 参数的 Beta 分布

Beta 分布通常用于对概率分布进行建模,其概率密度如下:

公式 1:Beta PDF

i i i i i 1 1 2 2 k-1 k-1 k