对抗训练(AT)是提高深度神经网络鲁棒性的最常用机制。最近,一种针对中间层的新型对抗攻击利用了对抗训练网络的额外脆弱性,输出错误的预测。这一结果说明对抗训练中对抗扰动的搜索空间不足。为了阐明中间层攻击有效的原因,我们将前向传播解释为聚类效应,表征神经网络对于与训练集具有相同标签的样本的中间层表示相似,并通过相应的信息瓶颈理论从理论上证明了聚类效应的存在。随后我们观察到中间层攻击违反了 AT 训练模型的聚类效应。受这些重要观察的启发,我们提出了一种正则化方法来扩展训练过程中的扰动搜索空间,称为充分对抗训练(SAT)。我们通过严格的数学证明给出了经过验证的神经网络鲁棒性界限。实验评估表明,SAT 在防御针对输出层和中间层的对抗性攻击方面优于其他最先进的 AT 机制。我们的代码和附录可以在 https://github.com/clustering-effect/SAT 找到。
聚类在多种生物信息学应用中起重要作用,包括蛋白质功能预测,种群遗传学和基因表达分析。大多数聚类算法的结果对输入数据的变化,聚类算法及其参数和各个数据集敏感。共识聚类(CC)是聚类算法的扩展,旨在从上述变化来源下不变的那些群集特征构建强大的结果。作为CC的一部分,稳定性得分可以提供所得聚类的可靠性程度的概念。本综述将CC在文献中介绍为三种主要类型,介绍并说明了稳定分数的概念,并说明了在应用中使用CC来模拟和现实的基因表达数据集。Open-source R implementations for each of these CC algorithms are available in the GitHub repository: https://github.com/behnam-yousefi/ConsensusClustering Keywords: Consensus clustering, Ensemble clustering, Robustness, Generation mechanism, Stability score
基于聚类的置换检验广泛用于神经科学研究中,用于分析高维脑电图 (EEG) 和事件相关电位 (ERP) 数据,因为它可以解决多重比较问题而不会降低统计功效。然而,经典的基于聚类的置换分析依赖于参数 t 检验,如果数据分布不正态,则可能无法验证其假设,因此可能需要考虑其他选择。为了克服这一限制,我们在此介绍了一种基于非参数 Wilcoxon-Mann-Whitney 检验的 EEG 序列聚类置换分析新软件。我们在两个独立的 ERP 和 EEG 频谱数据集中测试了 t 检验和非参数 Wilcoxon 实现:虽然基于 t 检验和基于非参数 Wilcoxon 的聚类分析在 ERP 数据的情况下显示出相似的结果,但 t 检验实现无法在频谱数据的情况下发现聚类效应。我们鼓励使用非参数统计数据对 EEG 数据进行聚类置换分析,并且我们为此计算提供了一个公开可用的软件。© 2022 作者。由 Elsevier BV 出版这是一篇根据 CC BY-NC-ND 许可开放获取的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。
摘要K -Means聚类算法是数据挖掘和未加剧的学习的主要内容,之所以受欢迎,是因为它易于实现,快速,易于并行化并提供直观的结果。劳埃德的算法是标准批量的爬山方法,用于最大程度地减少K-均值优化标准。它花费了大部分时间计算k群集中心和n个数据点之间的距离。事实证明,这项工作的大部分是不必要的,因为在第一次迭代之后,点通常会留在同一集群中。在过去的十年中,研究人员开发了许多优化,以加快劳埃德(Lloyd)的算法的低维数据和高维数据。在本章中,我们调查了其中一些优化,并提出了新的优化。特别是我们专注于避免通过三角形不等式计算距离的那些。通过缓存已知距离并用三角形不等式更新它们,这些算法可以避免许多不必要的距离计算。所检查的所有优化产生的结果与劳埃德的算法相同,给定的输入和初始化,因此适用于倒入替换。这些新算法的运行速度比标准未取代的实现更快,并且计算距离要少得多。在我们的实验中,与劳埃德算法相比,通常会看到超过30-50倍的加速度。我们研究了使用这些方法的示例n,dimensions d,簇K和数据结构的权衡。
(b)真实图像数据分布图4:通过U-NET的学习分布的相变。在(a)中,x轴是固有维度上的训练样本数量,而在(b)中,这是训练样本的总数。y轴是GL分数。我们使用(a)k = 2,n = 48和d k从3到6和(b)真实图像数据集CIFAR-10,celeba,ffhq和afhq的MOLRG分布产生的数据样本训练扩散模型。u-net记住训练数据时,GL分数很低,并且在学习基础分布时高。
摘要 - 本文介绍了超维计算(HDC)域中数据的聚类。在先前的工作中,已经提出了一个基于HDC的聚类框架,称为HDCluster。但是,现有的HDCluster的性能并不强大。在初始化步骤中随机选择簇的高量向量,HDCluster的性能被降解。为了克服这种瓶颈,我们通过探索编码数据的相似性(称为查询过量向量,分配了初始群集过度向量。组内过度向量的相似性比组间高向量具有更高的相似性。利用查询过量向量之间的相似性结果,本文提出了四种基于HDC的聚类算法:基于相似性的K-均值,相等的Bin宽度直方图,相等的BIN高度直方图和基于相似性的亲和力传播。实验结果说明:(i)与现有的HDCluster相比,我们提出的基于HDC的聚类算法可以实现更好的准确性,更健壮的性能,更少的迭代和更少的执行时间。基于相似性的亲和力提出优于八个数据集上的其他三种基于HDC的聚类算法,而聚类准确性则高于2%约38%。(ii)即使对于一通聚类,即没有群集高量向量的任何迭代更新,我们提出的算法也可以提供比HDClter更强大的聚类精度。(iii)在八个数据集上,当八分之一的数据集投影到高维空间上时,八分之一可以达到更高或可比的精度。传统聚类比HDC更可取,当时簇数k的数量很大。
量子聚类 (QC) 是一种基于量子力学的数据聚类算法,通过用高斯函数替换给定数据集中的每个点来实现。高斯函数的宽度为 𝜎 值,这是一个超参数,可以手动定义和操纵以适应应用。数值方法用于查找与聚类中心相对应的量子势的所有最小值。在此,我们研究了表达和查找与二维量子势的最小值相对应的指数多项式的所有根的数学任务。这是一项杰出的任务,因为通常无法通过分析解决此类表达式。但是,我们证明,如果所有点都包含在大小为 𝜎 的方形区域中,则只有一个最小值。这个界限不仅在通过数值方法寻找解决方案的数量方面有用,它还允许提出一种“每个块”的新数值方法。该技术通过将某些粒子组近似为加权粒子来减少粒子数量。这些发现不仅对量子聚类问题有用,而且对量子化学、固体物理和其他应用中遇到的指数多项式也有用。
心脏转录组轮廓的聚类揭示了独特的:扩张的心肌病患者的亚组。verdonschot,J.A.J。;王,ping; Derks,K.W.J。; Adriaens,M.E。; Stroeks,S.L.V.M.;亨肯斯(M.T.H.M.); RAAFS,A.G。;锡金Koning,B。de; Wijngaard,A。VanDen; Krapels,I.P.C。;纳本(M。) Brunner,H.G。; Heymans,S.R.B。2023,给编辑的文章 /信(JACC-BASIC to Translatitation Science,8,4,(2023),pp。< / div>406-418)
磁共振成像(MRI)等神经成像技术的快速发展促进了我们获取大脑结构和功能特征。脑网络分析是从 MRI 探索大脑机制的重要工具之一,它为大脑组织提供有价值的见解,并促进对大脑认知和神经退行性疾病病理的理解。图神经网络(GNN)通常用于脑网络分析,但它们受到医疗数据稀缺的限制。虽然已经开发了图对比学习方法来解决这个问题,但它们通常涉及扭曲大脑解剖结构的图增强。为了应对这些挑战,本文提出了一种无增强的对比学习方法,即基于自促进聚类的对比学习(SPCCL)。具体而言,通过引入基于聚类的对比学习损失和自促进对比对创建方案,所提出的 SPCCL 可以从比疾病患者数据相对容易获取的其他健康受试者数据中进行预训练。所提出的 SPCCL 利用这些额外的数据来保持原始大脑结构的完整性,使其成为一种有效的大脑网络分析的有前途的方法。在开放获取的精神分裂症数据集上进行了全面的实验,证明了所提出方法的有效性。
摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。