大脑中的肿瘤是由大脑内组织细胞不受管制的出现引起的。早期诊断并确定磁共振成像中肿瘤的精确位置(MRI)及其大小对于医生团队至关重要。图像分割通常被认为是医学图像分析中的初步步骤。k均值聚类已被广泛用于脑肿瘤检测。此技术的结果是群集图像的列表。这种方法的挑战是选择描绘肿瘤的适当簇部分的困难。在这项工作中,我们分析了不同图像簇的影响。然后将每个群集分为左右部分。之后,每个部分中都描绘了纹理特征。此外,还采用双边对称度量来估计包含肿瘤的簇。最后,采用连接的组件标记来确定用于脑肿瘤检测的靶标簇。已开发的技术应用于30个MRI图像。获得了87%的鼓励精度。
基于锚点的大规模多视图聚类因其在处理海量数据集方面的有效性而引起了广泛关注。然而,当前的方法主要通过探索锚点图或投影矩阵之间的全局相关性来寻找用于聚类的共识嵌入特征。在本文中,我们提出了一种简单而有效的可扩展多视图张量聚类(S 2 MVTC)方法,我们的重点是学习视图内和跨视图的嵌入特征的相关性。具体而言,我们首先通过将不同视图的嵌入特征堆叠到张量中并旋转它来构造嵌入特征张量。此外,我们构建了一种新颖的张量低频近似(TLFA)算子,它将图相似性结合到嵌入特征学习中,有效地实现不同视图内嵌入特征的平滑表示。此外,对嵌入特征应用共识约束以确保视图间语义一致性。在六个大规模多视图数据集上的实验结果表明,S 2 MVTC 在聚类性能和 CPU 执行时间方面明显优于最先进的算法,尤其是在处理海量数据时。S 2 MVTC 的代码已公开发布在 https://github.com/longzhen520/S2MVTC。
近年来,基于锚点的方法在多视图聚类中取得了可喜的进展。这些方法的性能受到锚点质量的显著影响。然而,以前的研究生成的锚点仅仅依赖于单视图信息,忽略了不同视图之间的相关性。特别地,我们观察到相似的模式更有可能存在于相似的视图之间,因此可以利用这种相关性信息来提高锚点的质量,而这同样被忽略了。为此,我们提出了一种新颖的即插即用的通过视图相关性进行多视图聚类的锚点增强策略。具体而言,我们基于对齐的初始锚点图构建视图图来探索视图间相关性。通过从视图相关性中学习,我们使用相邻视图上锚点和样本之间的关系来增强当前视图的锚点,从而缩小相似视图上锚点的空间分布。在七个数据集上的实验结果证明了我们的方法优于其他现有方法。此外,大量的对比实验验证了所提出的锚增强模块应用于各种基于锚的方法时的有效性。
对抗训练(AT)是提高深度神经网络鲁棒性的最常用机制。最近,一种针对中间层的新型对抗攻击利用了对抗训练网络的额外脆弱性,输出错误的预测。这一结果说明对抗训练中对抗扰动的搜索空间不足。为了阐明中间层攻击有效的原因,我们将前向传播解释为聚类效应,表征神经网络对于与训练集具有相同标签的样本的中间层表示相似,并通过相应的信息瓶颈理论从理论上证明了聚类效应的存在。随后我们观察到中间层攻击违反了 AT 训练模型的聚类效应。受这些重要观察的启发,我们提出了一种正则化方法来扩展训练过程中的扰动搜索空间,称为充分对抗训练(SAT)。我们通过严格的数学证明给出了经过验证的神经网络鲁棒性界限。实验评估表明,SAT 在防御针对输出层和中间层的对抗性攻击方面优于其他最先进的 AT 机制。我们的代码和附录可以在 https://github.com/clustering-effect/SAT 找到。
聚类在多种生物信息学应用中起重要作用,包括蛋白质功能预测,种群遗传学和基因表达分析。大多数聚类算法的结果对输入数据的变化,聚类算法及其参数和各个数据集敏感。共识聚类(CC)是聚类算法的扩展,旨在从上述变化来源下不变的那些群集特征构建强大的结果。作为CC的一部分,稳定性得分可以提供所得聚类的可靠性程度的概念。本综述将CC在文献中介绍为三种主要类型,介绍并说明了稳定分数的概念,并说明了在应用中使用CC来模拟和现实的基因表达数据集。Open-source R implementations for each of these CC algorithms are available in the GitHub repository: https://github.com/behnam-yousefi/ConsensusClustering Keywords: Consensus clustering, Ensemble clustering, Robustness, Generation mechanism, Stability score
基于聚类的置换检验广泛用于神经科学研究中,用于分析高维脑电图 (EEG) 和事件相关电位 (ERP) 数据,因为它可以解决多重比较问题而不会降低统计功效。然而,经典的基于聚类的置换分析依赖于参数 t 检验,如果数据分布不正态,则可能无法验证其假设,因此可能需要考虑其他选择。为了克服这一限制,我们在此介绍了一种基于非参数 Wilcoxon-Mann-Whitney 检验的 EEG 序列聚类置换分析新软件。我们在两个独立的 ERP 和 EEG 频谱数据集中测试了 t 检验和非参数 Wilcoxon 实现:虽然基于 t 检验和基于非参数 Wilcoxon 的聚类分析在 ERP 数据的情况下显示出相似的结果,但 t 检验实现无法在频谱数据的情况下发现聚类效应。我们鼓励使用非参数统计数据对 EEG 数据进行聚类置换分析,并且我们为此计算提供了一个公开可用的软件。© 2022 作者。由 Elsevier BV 出版这是一篇根据 CC BY-NC-ND 许可开放获取的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。
摘要K -Means聚类算法是数据挖掘和未加剧的学习的主要内容,之所以受欢迎,是因为它易于实现,快速,易于并行化并提供直观的结果。劳埃德的算法是标准批量的爬山方法,用于最大程度地减少K-均值优化标准。它花费了大部分时间计算k群集中心和n个数据点之间的距离。事实证明,这项工作的大部分是不必要的,因为在第一次迭代之后,点通常会留在同一集群中。在过去的十年中,研究人员开发了许多优化,以加快劳埃德(Lloyd)的算法的低维数据和高维数据。在本章中,我们调查了其中一些优化,并提出了新的优化。特别是我们专注于避免通过三角形不等式计算距离的那些。通过缓存已知距离并用三角形不等式更新它们,这些算法可以避免许多不必要的距离计算。所检查的所有优化产生的结果与劳埃德的算法相同,给定的输入和初始化,因此适用于倒入替换。这些新算法的运行速度比标准未取代的实现更快,并且计算距离要少得多。在我们的实验中,与劳埃德算法相比,通常会看到超过30-50倍的加速度。我们研究了使用这些方法的示例n,dimensions d,簇K和数据结构的权衡。
(b)真实图像数据分布图4:通过U-NET的学习分布的相变。在(a)中,x轴是固有维度上的训练样本数量,而在(b)中,这是训练样本的总数。y轴是GL分数。我们使用(a)k = 2,n = 48和d k从3到6和(b)真实图像数据集CIFAR-10,celeba,ffhq和afhq的MOLRG分布产生的数据样本训练扩散模型。u-net记住训练数据时,GL分数很低,并且在学习基础分布时高。
摘要 - 本文介绍了超维计算(HDC)域中数据的聚类。在先前的工作中,已经提出了一个基于HDC的聚类框架,称为HDCluster。但是,现有的HDCluster的性能并不强大。在初始化步骤中随机选择簇的高量向量,HDCluster的性能被降解。为了克服这种瓶颈,我们通过探索编码数据的相似性(称为查询过量向量,分配了初始群集过度向量。组内过度向量的相似性比组间高向量具有更高的相似性。利用查询过量向量之间的相似性结果,本文提出了四种基于HDC的聚类算法:基于相似性的K-均值,相等的Bin宽度直方图,相等的BIN高度直方图和基于相似性的亲和力传播。实验结果说明:(i)与现有的HDCluster相比,我们提出的基于HDC的聚类算法可以实现更好的准确性,更健壮的性能,更少的迭代和更少的执行时间。基于相似性的亲和力提出优于八个数据集上的其他三种基于HDC的聚类算法,而聚类准确性则高于2%约38%。(ii)即使对于一通聚类,即没有群集高量向量的任何迭代更新,我们提出的算法也可以提供比HDClter更强大的聚类精度。(iii)在八个数据集上,当八分之一的数据集投影到高维空间上时,八分之一可以达到更高或可比的精度。传统聚类比HDC更可取,当时簇数k的数量很大。
量子聚类 (QC) 是一种基于量子力学的数据聚类算法,通过用高斯函数替换给定数据集中的每个点来实现。高斯函数的宽度为 𝜎 值,这是一个超参数,可以手动定义和操纵以适应应用。数值方法用于查找与聚类中心相对应的量子势的所有最小值。在此,我们研究了表达和查找与二维量子势的最小值相对应的指数多项式的所有根的数学任务。这是一项杰出的任务,因为通常无法通过分析解决此类表达式。但是,我们证明,如果所有点都包含在大小为 𝜎 的方形区域中,则只有一个最小值。这个界限不仅在通过数值方法寻找解决方案的数量方面有用,它还允许提出一种“每个块”的新数值方法。该技术通过将某些粒子组近似为加权粒子来减少粒子数量。这些发现不仅对量子聚类问题有用,而且对量子化学、固体物理和其他应用中遇到的指数多项式也有用。