摘要 - 随着机器学习的更广泛采用以及对数据隐私的越来越关注,联邦学习(FL)受到了极大的关注。FL计划通常使一组参与者(即数据所有者)使用其本地数据单独训练机器学习模型,然后将其通过中央服务器的协调来汇总以构建全局FL模型。对标准FL的改进包括(i)通过利用梯度稀疏和(ii)通过采用隐私性汇总(PPAGG)协议来增强聚合的安全性,从而减少梯度传输的通信开销。但是,由于用户稀疏梯度向量的异质性,最新的PPAGG协议并不能轻易与梯度稀疏相互互操作。为了解决此问题,我们提出了一种动态用户聚类(DUC)方法,并采用一组支持协议,根据PPAGG协议和梯度稀疏技术的性质将用户分配到集群中,提供安全性的质量和通信效率。实验结果表明,与基准相比,DUC-FL显着降低了通信开销,并实现了相似的模型精度。所提出的协议的简单性使其对实施和进一步的改进都具有吸引力。
心脏转录组轮廓的聚类揭示了独特的:扩张的心肌病患者的亚组。verdonschot,J.A.J。;王,ping; Derks,K.W.J。; Adriaens,M.E。; Stroeks,S.L.V.M.;亨肯斯(M.T.H.M.); RAAFS,A.G。;锡金Koning,B。de; Wijngaard,A。VanDen; Krapels,I.P.C。;纳本(M。) Brunner,H.G。; Heymans,S.R.B。2023,给编辑的文章 /信(JACC-BASIC to Translatitation Science,8,4,(2023),pp。< / div>406-418)
摘要。社交触摸提供了人类和机器人之间丰富的非语言交流。先前的工作已经确定了一套用于人类互动的触摸手势,并用自然语言标签(例如,抚摸,拍拍)描述了它们。然而,尚无关于用户思想中的触摸手势之间的半智关系的数据。为了赋予机器人的触摸智能,我们调查了人们如何看待文献中的社会触摸标签的相似之处。在一项在线研究中,有45位参与者根据他们的相似之处对36个社交触摸标签进行了分组,并用描述性名称注释了他们的分组。我们从这些分组中得出了手势的定量相似性,并使用层次聚类分析了相似性。分析导致围绕手势的社会,情感和接触特征形成9个触摸手势。我们讨论了结果对设计和评估触摸感应和与社交机器人的互动的含义。
大脑中的肿瘤是由大脑内组织细胞不受管制的出现引起的。早期诊断并确定磁共振成像中肿瘤的精确位置(MRI)及其大小对于医生团队至关重要。图像分割通常被认为是医学图像分析中的初步步骤。k均值聚类已被广泛用于脑肿瘤检测。此技术的结果是群集图像的列表。这种方法的挑战是选择描绘肿瘤的适当簇部分的困难。在这项工作中,我们分析了不同图像簇的影响。然后将每个群集分为左右部分。之后,每个部分中都描绘了纹理特征。此外,还采用双边对称度量来估计包含肿瘤的簇。最后,采用连接的组件标记来确定用于脑肿瘤检测的靶标簇。已开发的技术应用于30个MRI图像。获得了87%的鼓励精度。
摘要:设计无线传感器网络的主要重点在于优化能源效率,尤其是通过实施路由和聚类技术。本研究旨在提出群集路由协议,这些方案有效地保存无线传感器网络中的能量。一开始,我们采用了Honey Badger算法来选择簇头。使用此技术,我们可以考虑到剩余能量和节点接近度之类的东西,从所有传感器中选择最有效的簇头。使用非洲水牛优化技术完成了基站和集群头之间的通信路由。参数(例如残留能量和节点度)用于确定从源到目的地的最短路径。可以通过一系列模拟来确认所提出的模型的有效性,这是实验验证过程的一部分。将建议的MACR协议与低能量自适应聚类层次结构(LEACH),混合能源有效分布式分布(HEED),基于模糊的增强学习数据收集(FRLDG)以及基于模糊规则的能源有效的群集和免疫吸引人的聚类(FEEC-IIR)(FEEC-IIR),以及延迟的延迟及其延迟,以及延迟的延迟,以及延迟的延迟。建议的协议执行。和能源消耗。
基于锚点的大规模多视图聚类因其在处理海量数据集方面的有效性而引起了广泛关注。然而,当前的方法主要通过探索锚点图或投影矩阵之间的全局相关性来寻找用于聚类的共识嵌入特征。在本文中,我们提出了一种简单而有效的可扩展多视图张量聚类(S 2 MVTC)方法,我们的重点是学习视图内和跨视图的嵌入特征的相关性。具体而言,我们首先通过将不同视图的嵌入特征堆叠到张量中并旋转它来构造嵌入特征张量。此外,我们构建了一种新颖的张量低频近似(TLFA)算子,它将图相似性结合到嵌入特征学习中,有效地实现不同视图内嵌入特征的平滑表示。此外,对嵌入特征应用共识约束以确保视图间语义一致性。在六个大规模多视图数据集上的实验结果表明,S 2 MVTC 在聚类性能和 CPU 执行时间方面明显优于最先进的算法,尤其是在处理海量数据时。S 2 MVTC 的代码已公开发布在 https://github.com/longzhen520/S2MVTC。
虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注,并在过去二十年中产生了大量文献,但直到很晚且相对较新的时候,它才有效地出现在无监督框架中。第一种方法是基于模型的,这些方法自然适合包括套索(L 1)和相关惩罚,并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序(混合由方差相等的高斯分布组成)或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中,没有对底层分布做出任何假设,在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法,后来扩展到每个聚类内的特征选择,并通过一致性结果得到加强,[4] [5] [6]。我们还要提到,最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此,上面引用的所有方法本质上都是为数值数据设计的,而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题,提到了使用虚拟变量进行转换使其数字化的可能性。但是,这个处理步骤并不是那么直接,因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者
1美国杜克大学医学院,美国北卡罗来纳州达勒姆大学医学院,美国2杜克大学血液学典型科学系高维细胞多摩学数据对于理解生物控制的各个层次至关重要。单一的'Omic方法提供了重要的见解,但在处理基因,蛋白质,代谢产物以及其他方面的复杂关系方面常常缺乏。在这里,我们提出了一种称为Gaudi的新颖,非线性和无监督的方法(通过UMAP数据集成进行组聚集),该方法利用独立的UMAP嵌入来进行多种数据类型的并发分析。Gaudi比几种最先进的方法更好地发现不同的OMIC数据之间的非线性关系。这种方法不仅通过它们的多摩尼克曲线群簇样本,而且还识别了每个OMICS数据集的潜在因素,从而促进对每个群集有助于的基本特征的解释。因此,Gaudi促进了更直观,可解释的可视化,从而从广泛的实验设计中识别出新颖的见解和潜在的生物标志物。引言多摩变分析整合了各种数据类型,例如基因组学,蛋白质组学和代谢组学。组合多种OMICS模式比单独分析每种数据类型时,有可能发现新颖的见解和生物标志物(1,2)。高通量技术的增长促使OMICS数据呈指数增加,这突显了对新的集成方法的迫切需求。传统的多摩学集成方法主要集中在降低尺寸技术上。例如,在RGCCA(3)中使用了基于规范相关分析(CCA)的方法,而MCIA中使用了共惯性分析(4)。同样,贝叶斯因子分析基于MOFA+(5)等方法,负基质分解对于Intnmf(6),主成分分析(7)和独立组件分析是TICA(8)的基础。尽管这些方法已在各种OMICS数据集和生物环境中应用,但它们的有效性和局限性各不相同,强调了在其应用中需要仔细考虑的需求(9)。这些方法共享的中心限制是它们对线性假设的依赖。虽然在某些情况下合适,但这种假设可能不足以准确捕获复合物,通常是非线性的相互作用(10,11)。此外,它们的计算强度构成了挑战,尤其是对于大型数据集。应对这些挑战,最近的进步已转向非线性整合方法(9,10)。均匀的歧管近似和投影(UMAP)是一种降低技术,可以揭示复杂数据集中的基础结构(12)。通过将流形学习与拓扑数据分析相结合,它可以有效地可视化较低空间中的高维数据。UMAP通过有效地从PCA和T-SNE等其他方法中脱颖而出
摘要 — 在本文中,我们提出了一种机器学习过程,用于将大规模社交物联网 (SIoT) 设备聚类为几组具有强关系的相关设备。为此,我们根据物联网设备的历史数据集及其社交关系生成无向加权图。使用这些图的邻接矩阵和物联网设备的特征,我们使用图神经网络 (GNN) 嵌入图的节点,以获得物联网设备的数值向量表示。向量表示不仅反映了设备的特性,还反映了它与同类设备的关系。然后将获得的节点嵌入输入到传统的无监督学习算法中,以相应地确定聚类。我们使用两种众所周知的聚类算法展示获得的物联网组,特别是 K 均值和基于密度的聚类发现算法 (DBSCAN)。最后,我们将所提出的基于 GNN 的聚类方法在覆盖率和模块性方面的性能与仅应用于从不同关系创建的图的确定性 Louvain 社区检测算法的性能进行比较。结果表明,该框架在聚类大型物联网系统方面取得了有希望的初步成果。索引术语 — 物联网 (IoT)、聚类、深度学习、图神经网络。
摘要 — 随着可变可再生能源稳步融入欧洲电力系统,对容量扩展模型更高时间分辨率的需求也随之增加。当然,用于规划未来几十年电力系统的时间数据量与准确表示可再生能源变化所需的时间分辨率之间存在权衡。我们建议使用 Wasserstein 距离作为聚类差异的度量,用它来聚类需求、风能可用性和太阳能可用性数据。与欧几里得距离和最大距离相比,使用 Wasserstein 距离执行的层次聚类可使容量扩展规划 1) 更准确地估计系统成本和 2) 更有效地采用存储资源。数值结果表明,与欧几里得距离相比,成本估算提高了 5%,存储投资减少了相当于基准全时分辨率下安装容量的近 100%。