Loading...
机构名称:
¥ 2.0

查找数据集的一组嵌套分区对于在不同尺度上发现相关结构很有用,并且经常处理与数据有关的方法。在本文中,我们引入了一种基于模型的分层聚类的一般两步方法。将集成的分类可能性标准视为目标函数,此工作适用于该数量可以处理的每个离散潜在变量模型(DLVM)。该方法的第一步涉及最大程度地提高相对于分区的标准。解决了通过贪婪的山坡攀岩启发式方法发现的已知局部最大最大最大最大值问题时,我们基于遗传算法引入了一种新的混合算法,该算法允许有效地探索解决方案的空间。所得算法小心地结合并合并了不同的解决方案,并允许簇数K的共同推断以及簇本身。从这个自然分区开始,该方法的第二步是基于自下而上的贪婪程序来提取簇的层次结构。在贝叶斯语境中,这是通过考虑dirichlet群集比例的先验参数α作为控制聚类粒度的正规化项来实现的。标准的新近似值被推导为α的对数线性函数,从而实现了合并决策标准的简单函数形式。第二步允许在更粗的尺度上探索聚类。将所提出的方法与现有的模拟和实际设置的策略进行了比较,结果表明其结果特别相关。本工作的参考实现可在论文1随附的r软件包贪婪中获得。

层次结构聚类,具有离散潜在变量模型和集成分类的可能性

层次结构聚类,具有离散潜在变量模型和集成分类的可能性PDF文件第1页

层次结构聚类,具有离散潜在变量模型和集成分类的可能性PDF文件第2页

层次结构聚类,具有离散潜在变量模型和集成分类的可能性PDF文件第3页

层次结构聚类,具有离散潜在变量模型和集成分类的可能性PDF文件第4页

层次结构聚类,具有离散潜在变量模型和集成分类的可能性PDF文件第5页

相关文件推荐