1。一种自我监督的模型登录方法,仅取决于正面匹配对以改善面部嵌入。2。面部聚类的基于深度学习的相似性度量,该指标会自动适应给定模型的学习嵌入空间。3。不需要任何用户输入参数的全自动视频面聚类算法。4。发布电影脸聚类基准数据集,称为MoviefaceCluster,该数据集提供了电影域中存在的极端挑战的面部聚类场景。
图形神经网络(GNNS)已在许多图分析任务(例如节点分类和链接预测)上实现了最新结果。然而,图形群集等图形上的重要无监督问题已证明对GNN的进步具有更大的抵抗力。图形聚类的总体目标与GNN中的节点合并相同 - 这意味着GNN池方法在聚类图方面做得很好?令人惊讶的是,答案是否 - 在简单的基准(例如应用于学习的表示上的K均值)良好工作的情况下,循环的GNN合并方法通常无法恢复群集结构。我们通过仔细设计一组实验来进一步研究,以研究图形结构和属性数据中不同的信噪情景。为了解决这些方法在聚类中的性能不佳,我们引入了深层模块化网络(DMON),这是一种受群集质量模块化量度启发的无监督的汇总方法,并显示了它如何处理现实世界图的挑战性聚类结构的恢复。同样,在现实世界数据上,我们表明DMON产生的高质量群集与地面真相标签密切相关,从而获得了最先进的结果,比各个不同指标的其他合并方法提高了40%以上。关键字:图形聚类,图形神经网络,随机块模型
摘要 - 本文介绍了超维计算(HDC)域中数据的聚类。在先前的工作中,已经提出了一个基于HDC的聚类框架,称为HDCluster。但是,现有的HDCluster的性能并不强大。在初始化步骤中随机选择簇的高量向量,HDCluster的性能被降解。为了克服这种瓶颈,我们通过探索编码数据的相似性(称为查询过量向量,分配了初始群集过度向量。组内过度向量的相似性比组间高向量具有更高的相似性。利用查询过量向量之间的相似性结果,本文提出了四种基于HDC的聚类算法:基于相似性的K-均值,相等的Bin宽度直方图,相等的BIN高度直方图和基于相似性的亲和力传播。实验结果说明:(i)与现有的HDCluster相比,我们提出的基于HDC的聚类算法可以实现更好的准确性,更健壮的性能,更少的迭代和更少的执行时间。基于相似性的亲和力提出优于八个数据集上的其他三种基于HDC的聚类算法,而聚类准确性则高于2%约38%。(ii)即使对于一通聚类,即没有群集高量向量的任何迭代更新,我们提出的算法也可以提供比HDClter更强大的聚类精度。(iii)在八个数据集上,当八分之一的数据集投影到高维空间上时,八分之一可以达到更高或可比的精度。传统聚类比HDC更可取,当时簇数k的数量很大。
引文:Altae-Tran、Han、Kannan、Soumya、Suberski、Anthony J.、Mears、Kepler S.、Demircioglu、F. Esra 等人,2023 年。“利用深度太赫兹聚类揭示稀有 CRISPR-Cas 系统 1 的功能多样性。”《科学》。
操作领域(AO)的情境情况对于指挥所和战术边缘的情况意识至关重要。运营商,例如一个营的S2或公司指挥官,从包括预期敌军的战斗(Orbat)的计划开始。他们会收到有关检测到的战斗空间对象(BSO)的持续信息,并将其添加到情境图片中。在理想情况下,操作员创建了一个真实,完整,最新和简洁的情况。实际上,图片可能不完整,包含错误或过时的信息。为了不断地保持准确的情境图片,重要的是要通过添加新的BSO来丰富它,也要管理可能重复或过时的BSO的更正和删除。在以前的论文中,我们介绍了两种方法,以自动聚集和富集情境图片:根据其空间距离随时间的空间距离[1],[2]和一种基于规则的方法,用于将BSO映射到敌人的Orbat [3] [3]。在本文中,我们提出了一种新的方法来维护情况,该方法确定了来自源自轨道的情境图片和簇的BSO群集之间的最佳映射。如[4]中所述,映射可以有效地充实情况形态图片,身份管理和改进的侦察计划。
聚类分析起源于分类学,是人类掌握的一门古老技能。过去,人们依据经验和专业知识对商品进行分类。随着现代社会的发展,人们对分类的要求越来越高[1,2],仅依据经验和专业知识的分类已逐渐被淘汰,现在计算机技术被用于聚类分析,使用算法解决庞大而复杂的聚类任务[3,4]。因此,聚类算法已被提出并应用于各种场合[5,6]。此外,我们生活的海量数据世界也使得聚类过程不可或缺。许多研究领域都面临着海量数据的问题[7,8]。如果没有聚类或数据降维等预处理,很难进行后续分析[9–11]。例如在机器学习领域,几乎所有重要算法的原始入口都是大量的大规模数据,如果不进行聚类或降维,这些数据很难得到利用[12–14]。在量子通信领域,量子通信设备仅供应给少数几家大公司,量子通信中的很多方可能都是经典的,聚类算法可以帮助通信方更便捷地处理传输的信息[15–17]。在数据降维方面,我们熟悉的主成分分析算法(PCA)[18]、多维缩放(MDS)、线性判别(LDA)、局部线性嵌入(LLE)等[19–22]。但降维算法不可避免地会降低数据的属性值,如果操作不当,数据就会失去准确性,结果就会出现偏差,而使用聚类算法可以避免此类问题。目前,聚类算法可以按以下方式划分。基于分区的聚类算法包括 K 均值 [23]、K 中值 [24] 和核 K 均值算法 [25]。基于层次的聚类算法包括 BIRCH、CURE 和 CHAMELEON 算法 [26]。基于密度的聚类算法包括 DBSCAN、均值漂移 (MS) [27] 和密度峰值聚类算法 (DPC) [28]。每种算法都具有不同的分类能力。
聚类是算法中的一个重要主题,在机器学习、计算机视觉、统计学和其他几个研究学科中有着广泛的应用。图聚类的传统目标是找到具有低电导性的聚类。这些目标不仅适用于无向图,而且无法考虑聚类之间的关系,而这对于许多应用来说可能是至关重要的。为了克服这些缺点,我们研究了有向图(有向图),其聚类彼此之间展示了更多的“结构”信息。基于有向图的 Hermitian 矩阵表示,我们提出了一种近线性时间的有向图聚类算法,并进一步表明我们提出的算法可以在合理的假设下以亚线性时间实现。我们的理论工作的意义通过对联合国商品贸易统计数据集的大量实验结果得到证明:我们算法的输出聚类不仅展示了聚类(国家集合)在进出口记录方面如何相互关联,还展示了这些聚类如何随着时间的推移而演变,这与已知的国际贸易事实一致。
摘要 - 在一个以不断升级的数字威胁格局为主导的时代,积极的网络安全措施越来越多。本文利用了全球网络联盟提供的全面数据集,其中包括从全球分布式蜜饯收集的网络攻击记录。该研究追求两个主要目标:进行集群分析以揭示攻击模式并开发预测模型以估计网络攻击的数量。从探索性数据分析开始,研究提供了对跨蜜罐位置攻击特征的见解,然后采用先进的聚类技术来识别常见模式。为此,还对恶意软件进行了分析,特别注意Virustotal恶意软件数据库未识别或未认识的人,因为它们对组织构成了主要风险。这项研究的最后一个方面是开发旨在预测网络攻击事件的预测模型,为网络安全内的资源分配和战略规划提供宝贵的支持。
摘要 - 由J.R. King开发的等级顺序集群(ROC)算法在过去五十年中已经取得了重大进步,并在包括制造的各种领域中广泛使用用于机器和零件的分组。本研究研究了ROC算法在细胞制造系统(CMS)中的利用,以优化机细胞和部分家族的创建,目的是提高生产效率。该研究提出了采用二元零件机器人矩阵的全面分析,并利用Microsoft Excel进行数据操作。通过迭代重新排列的行和列基于二进制值,ROC算法有效地将机器和零件分为相交的机器单元和非交流零件系列。涉及16×10二元零件机器人基质的案例研究证明了ROC算法的实际实现。研究结果表明,尽管ROC算法提供了一种结构化的细胞形成方法,但其有效性可能会有所不同。这项研究强调了ROC算法在改善制造布局优化和过程管理方面的潜力,从而铺平了
摘要 绝热量子计算机是一个有前途的平台,可以有效解决具有挑战性的优化问题。因此,许多人对使用这些计算机来训练计算成本高昂的机器学习模型感兴趣。我们提出了一种量子方法来解决 D-Wave 2000Q 绝热量子计算机上的平衡 k 均值聚类训练问题。为了做到这一点,我们将训练问题表述为二次无约束二元优化 (QUBO) 问题。与现有的经典算法不同,我们的 QUBO 公式针对平衡 k 均值模型的全局解。我们在许多小问题上测试了我们的方法,并观察到尽管 QUBO 公式具有理论上的优势,但现代量子计算机获得的聚类解决方案通常不如最佳经典聚类算法获得的解决方案。尽管如此,量子计算机提供的解决方案确实表现出一些有希望的特性。我们还进行了可扩展性研究,以估计使用未来量子硬件在大型问题上我们的方法的运行时间。作为概念的最终证明,我们使用量子方法对 Iris 基准数据集的随机子集进行聚类。