聚类失败的原因

以及如何修复它继续阅读 Towards Data Science »

来源:走向数据科学

聚类失败的原因

聚类失败的原因

您遇到了数据解释问题,因此尝试了聚类。现在您遇到了聚类解释问题!怀疑数据中可能存在模式。合理的希望是通过无监督学习添加一些结构会带来一些见解。聚类是寻找结构的首选工具。因此,您踏上了旅程。您在计算上花费了大量资金。您投入了大量精力来摆弄聚类调整参数。为了确保万无一失,您尝试了一些算法。但最终,您只剩下聚类数据的彩虹图,如果您仔细观察,这些图可能有意义——只是可能。您带着不安的怀疑回家,怀疑这一切都是徒劳的。可悲的是,这种情况经常发生。但是为什么会这样呢?

一些真实的集群。NASA 和 STScI 在公共领域发布图像。
一些真实的集群。NASA 和 STScI 在公共领域发布的图像。

聚类项目无法产生价值通常有几个原因:对数据的理解不够、对期望结果关注太少以及工具选择不当。我们将依次介绍这些原因。为了激发讨论,了解聚类技术存在的原因很有启发性。为此,我们将回顾什么是聚类以及促使聚类技术发展的一些问题。

什么是集群?