聚类算法在近年来变得非常流行,以此作为从所有类型数据中提取新信息的一种手段。群集算法是数据驱动的,并将观察到的数据分配到一个非重叠的群集集中,其簇在原始数据中具有相似的值。经常簇算法遵循两条路径:定量和定性。定量聚类算法通常使用连续的数据和对“距离”的统计测量来将相似的项目组合在一起以形成簇。定性聚类看起来只能使用有限和固定数量的级别和组数据,并将其组合在一起。这个动手研讨会将从理论和代码驱动的观点详细解释定量和定性聚类。主题包括病房和基于质心的聚类,分层聚类,树状图和其他多元可视化,这些可视化有助于开发或展示聚类算法的结果。