详细内容或原文请订阅后点击阅览
聚类分析和狄利克雷过程混合模型概述
在伦敦帝国理工学院机器学习硕士学位的 ISO 研究项目中,我专注于使用狄利克雷过程混合模型进行聚类分析的问题。DPMM 是一种“完全贝叶斯”无监督学习技术,与其他聚类分析方法不同,它不需要我们预先定义聚类总数 [...]
来源:DatumBox - 机器学习、统计和软件开发博客在伦敦帝国理工学院攻读机器学习硕士学位的 ISO 研究项目中,我专注于使用狄利克雷过程混合模型进行聚类分析的问题。DPMM 是一种“完全贝叶斯”无监督学习技术,与其他聚类分析方法不同,它不需要我们预先定义数据中的聚类总数。谷歌等大公司在各种应用中使用这些无限狄利克雷混合模型,包括文档分类、自然语言处理、计算机视觉等。
更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。
更新:Datumbox 机器学习框架现在是开源的,可以免费下载。查看包 com.datumbox.framework.machinelearning.clustering 以查看狄利克雷过程混合模型在 Java 中的实现。 下载在我的研究期间,我有机会使用两种不同的混合模型:用于聚类连续高斯数据集的多元正态混合模型和用于聚类文档的狄利克雷多项式混合模型。最初的研究持续了 3 个月,是在伦敦帝国理工学院的 Aldo Faisal 教授的指导下进行的。我计划在接下来的几周内在此博客中发布我研究的改编版本,讨论狄利克雷过程混合模型的理论和应用,并发布可用于使用 DPMM 执行聚类的 Java 实现。
Aldo Faisal本文是研究的介绍/概述,描述了问题,简要讨论了狄利克雷过程混合模型,最后介绍了即将发表的文章的结构。