(b)真实图像数据分布图4:通过U-NET的学习分布的相变。在(a)中,x轴是固有维度上的训练样本数量,而在(b)中,这是训练样本的总数。y轴是GL分数。我们使用(a)k = 2,n = 48和d k从3到6和(b)真实图像数据集CIFAR-10,celeba,ffhq和afhq的MOLRG分布产生的数据样本训练扩散模型。u-net记住训练数据时,GL分数很低,并且在学习基础分布时高。
摘要 - 本文介绍了超维计算(HDC)域中数据的聚类。在先前的工作中,已经提出了一个基于HDC的聚类框架,称为HDCluster。但是,现有的HDCluster的性能并不强大。在初始化步骤中随机选择簇的高量向量,HDCluster的性能被降解。为了克服这种瓶颈,我们通过探索编码数据的相似性(称为查询过量向量,分配了初始群集过度向量。组内过度向量的相似性比组间高向量具有更高的相似性。利用查询过量向量之间的相似性结果,本文提出了四种基于HDC的聚类算法:基于相似性的K-均值,相等的Bin宽度直方图,相等的BIN高度直方图和基于相似性的亲和力传播。实验结果说明:(i)与现有的HDCluster相比,我们提出的基于HDC的聚类算法可以实现更好的准确性,更健壮的性能,更少的迭代和更少的执行时间。基于相似性的亲和力提出优于八个数据集上的其他三种基于HDC的聚类算法,而聚类准确性则高于2%约38%。(ii)即使对于一通聚类,即没有群集高量向量的任何迭代更新,我们提出的算法也可以提供比HDClter更强大的聚类精度。(iii)在八个数据集上,当八分之一的数据集投影到高维空间上时,八分之一可以达到更高或可比的精度。传统聚类比HDC更可取,当时簇数k的数量很大。
量子聚类 (QC) 是一种基于量子力学的数据聚类算法,通过用高斯函数替换给定数据集中的每个点来实现。高斯函数的宽度为 𝜎 值,这是一个超参数,可以手动定义和操纵以适应应用。数值方法用于查找与聚类中心相对应的量子势的所有最小值。在此,我们研究了表达和查找与二维量子势的最小值相对应的指数多项式的所有根的数学任务。这是一项杰出的任务,因为通常无法通过分析解决此类表达式。但是,我们证明,如果所有点都包含在大小为 𝜎 的方形区域中,则只有一个最小值。这个界限不仅在通过数值方法寻找解决方案的数量方面有用,它还允许提出一种“每个块”的新数值方法。该技术通过将某些粒子组近似为加权粒子来减少粒子数量。这些发现不仅对量子聚类问题有用,而且对量子化学、固体物理和其他应用中遇到的指数多项式也有用。
心脏转录组轮廓的聚类揭示了独特的:扩张的心肌病患者的亚组。verdonschot,J.A.J。;王,ping; Derks,K.W.J。; Adriaens,M.E。; Stroeks,S.L.V.M.;亨肯斯(M.T.H.M.); RAAFS,A.G。;锡金Koning,B。de; Wijngaard,A。VanDen; Krapels,I.P.C。;纳本(M。) Brunner,H.G。; Heymans,S.R.B。2023,给编辑的文章 /信(JACC-BASIC to Translatitation Science,8,4,(2023),pp。< / div>406-418)
摘要 — 在本文中,我们提出了一种机器学习过程,用于将大规模社交物联网 (SIoT) 设备聚类为几组具有强关系的相关设备。为此,我们根据物联网设备的历史数据集及其社交关系生成无向加权图。使用这些图的邻接矩阵和物联网设备的特征,我们使用图神经网络 (GNN) 嵌入图的节点,以获得物联网设备的数值向量表示。向量表示不仅反映了设备的特性,还反映了它与同类设备的关系。然后将获得的节点嵌入输入到传统的无监督学习算法中,以相应地确定聚类。我们使用两种众所周知的聚类算法展示获得的物联网组,特别是 K 均值和基于密度的聚类发现算法 (DBSCAN)。最后,我们将所提出的基于 GNN 的聚类方法在覆盖率和模块性方面的性能与仅应用于从不同关系创建的图的确定性 Louvain 社区检测算法的性能进行比较。结果表明,该框架在聚类大型物联网系统方面取得了有希望的初步成果。索引术语 — 物联网 (IoT)、聚类、深度学习、图神经网络。
磁共振成像(MRI)等神经成像技术的快速发展促进了我们获取大脑结构和功能特征。脑网络分析是从 MRI 探索大脑机制的重要工具之一,它为大脑组织提供有价值的见解,并促进对大脑认知和神经退行性疾病病理的理解。图神经网络(GNN)通常用于脑网络分析,但它们受到医疗数据稀缺的限制。虽然已经开发了图对比学习方法来解决这个问题,但它们通常涉及扭曲大脑解剖结构的图增强。为了应对这些挑战,本文提出了一种无增强的对比学习方法,即基于自促进聚类的对比学习(SPCCL)。具体而言,通过引入基于聚类的对比学习损失和自促进对比对创建方案,所提出的 SPCCL 可以从比疾病患者数据相对容易获取的其他健康受试者数据中进行预训练。所提出的 SPCCL 利用这些额外的数据来保持原始大脑结构的完整性,使其成为一种有效的大脑网络分析的有前途的方法。在开放获取的精神分裂症数据集上进行了全面的实验,证明了所提出方法的有效性。
摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。
本文考虑了一种混合多层随机块模型 (MMLSBM),其中各层可以划分为相似网络组,每组中的网络都配备不同的随机块模型。目标是将多层网络划分为相似层的集群,并识别这些层中的社区。Jing 等人 (2020) 介绍了 MMLSBM,并开发了一种基于正则化张量分解的聚类方法 TWIST。本文提出了一种不同的技术,即交替最小化算法 (ALMA),旨在同时恢复层分区,以及估计不同层的连接概率矩阵。与 TWIST 相比,ALMA 在理论和数值上都实现了更高的精度。
摘要 近年来,我们目睹了全球越来越多的设备创建、捕获、复制和使用的数据不可阻挡地增长。对如此大量信息的处理需求促使人们研究更高的计算能力系统和专门的算法。其中,量子计算是一种基于量子理论的有前途的快速计算范式。在某些任务的计算复杂度方面,量子算法有望超越经典算法,机器学习就是其中之一,因此量子机器学习的子领域是最有前途的领域之一。在这项工作中,我们设计了一种用于 k-Means 的混合量子算法。我们算法的主要思想是以量子方式计算输入数据集中记录对之间的距离。我们表明,我们的量子算法原则上可以比经典的 k-Means 更高效,同时获得相当的聚类结果。
摘要 绝热量子计算机是一个有前途的平台,可以有效解决具有挑战性的优化问题。因此,许多人对使用这些计算机来训练计算成本高昂的机器学习模型感兴趣。我们提出了一种量子方法来解决 D-Wave 2000Q 绝热量子计算机上的平衡 k 均值聚类训练问题。为了做到这一点,我们将训练问题表述为二次无约束二元优化 (QUBO) 问题。与现有的经典算法不同,我们的 QUBO 公式针对平衡 k 均值模型的全局解。我们在许多小问题上测试了我们的方法,并观察到尽管 QUBO 公式具有理论上的优势,但现代量子计算机获得的聚类解决方案通常不如最佳经典聚类算法获得的解决方案。尽管如此,量子计算机提供的解决方案确实表现出一些有希望的特性。我们还进行了可扩展性研究,以估计使用未来量子硬件在大型问题上我们的方法的运行时间。作为概念的最终证明,我们使用量子方法对 Iris 基准数据集的随机子集进行聚类。