Loading...
机构名称:
¥ 1.0

虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注,并在过去二十年中产生了大量文献,但直到很晚且相对较新的时候,它才有效地出现在无监督框架中。第一种方法是基于模型的,这些方法自然适合包括套索(L 1)和相关惩罚,并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序(混合由方差相等的高斯分布组成)或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中,没有对底层分布做出任何假设,在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法,后来扩展到每个聚类内的特征选择,并通过一致性结果得到加强,[4] [5] [6]。我们还要提到,最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此,上面引用的所有方法本质上都是为数值数据设计的,而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题,提到了使用虚拟变量进行转换使其数字化的可能性。但是,这个处理步骤并不是那么直接,因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者

通过组稀疏聚类对混合数据进行稀疏 k 均值分类

通过组稀疏聚类对混合数据进行稀疏 k 均值分类PDF文件第1页

通过组稀疏聚类对混合数据进行稀疏 k 均值分类PDF文件第2页

通过组稀疏聚类对混合数据进行稀疏 k 均值分类PDF文件第3页

通过组稀疏聚类对混合数据进行稀疏 k 均值分类PDF文件第4页

通过组稀疏聚类对混合数据进行稀疏 k 均值分类PDF文件第5页