聚类分析起源于分类学,是人类掌握的一门古老技能。过去,人们依据经验和专业知识对商品进行分类。随着现代社会的发展,人们对分类的要求越来越高[1,2],仅依据经验和专业知识的分类已逐渐被淘汰,现在计算机技术被用于聚类分析,使用算法解决庞大而复杂的聚类任务[3,4]。因此,聚类算法已被提出并应用于各种场合[5,6]。此外,我们生活的海量数据世界也使得聚类过程不可或缺。许多研究领域都面临着海量数据的问题[7,8]。如果没有聚类或数据降维等预处理,很难进行后续分析[9–11]。例如在机器学习领域,几乎所有重要算法的原始入口都是大量的大规模数据,如果不进行聚类或降维,这些数据很难得到利用[12–14]。在量子通信领域,量子通信设备仅供应给少数几家大公司,量子通信中的很多方可能都是经典的,聚类算法可以帮助通信方更便捷地处理传输的信息[15–17]。在数据降维方面,我们熟悉的主成分分析算法(PCA)[18]、多维缩放(MDS)、线性判别(LDA)、局部线性嵌入(LLE)等[19–22]。但降维算法不可避免地会降低数据的属性值,如果操作不当,数据就会失去准确性,结果就会出现偏差,而使用聚类算法可以避免此类问题。目前,聚类算法可以按以下方式划分。基于分区的聚类算法包括 K 均值 [23]、K 中值 [24] 和核 K 均值算法 [25]。基于层次的聚类算法包括 BIRCH、CURE 和 CHAMELEON 算法 [26]。基于密度的聚类算法包括 DBSCAN、均值漂移 (MS) [27] 和密度峰值聚类算法 (DPC) [28]。每种算法都具有不同的分类能力。
主要关键词