摘要K -Means聚类算法是数据挖掘和未加剧的学习的主要内容,之所以受欢迎,是因为它易于实现,快速,易于并行化并提供直观的结果。劳埃德的算法是标准批量的爬山方法,用于最大程度地减少K-均值优化标准。它花费了大部分时间计算k群集中心和n个数据点之间的距离。事实证明,这项工作的大部分是不必要的,因为在第一次迭代之后,点通常会留在同一集群中。在过去的十年中,研究人员开发了许多优化,以加快劳埃德(Lloyd)的算法的低维数据和高维数据。在本章中,我们调查了其中一些优化,并提出了新的优化。特别是我们专注于避免通过三角形不等式计算距离的那些。通过缓存已知距离并用三角形不等式更新它们,这些算法可以避免许多不必要的距离计算。所检查的所有优化产生的结果与劳埃德的算法相同,给定的输入和初始化,因此适用于倒入替换。这些新算法的运行速度比标准未取代的实现更快,并且计算距离要少得多。在我们的实验中,与劳埃德算法相比,通常会看到超过30-50倍的加速度。我们研究了使用这些方法的示例n,dimensions d,簇K和数据结构的权衡。
主要关键词