图形神经网络(GNNS)已在许多图分析任务(例如节点分类和链接预测)上实现了最新结果。然而,图形群集等图形上的重要无监督问题已证明对GNN的进步具有更大的抵抗力。图形聚类的总体目标与GNN中的节点合并相同 - 这意味着GNN池方法在聚类图方面做得很好?令人惊讶的是,答案是否 - 在简单的基准(例如应用于学习的表示上的K均值)良好工作的情况下,循环的GNN合并方法通常无法恢复群集结构。我们通过仔细设计一组实验来进一步研究,以研究图形结构和属性数据中不同的信噪情景。为了解决这些方法在聚类中的性能不佳,我们引入了深层模块化网络(DMON),这是一种受群集质量模块化量度启发的无监督的汇总方法,并显示了它如何处理现实世界图的挑战性聚类结构的恢复。同样,在现实世界数据上,我们表明DMON产生的高质量群集与地面真相标签密切相关,从而获得了最先进的结果,比各个不同指标的其他合并方法提高了40%以上。关键字:图形聚类,图形神经网络,随机块模型
在初始免疫挑战时,树突状细胞(DC)迁移到淋巴结,并通过C型凝集素样受体2(CLEC-2)与成纤维细胞网状细胞(FRC)相互作用。CLEC-2与FRC上的膜糖蛋白podoplanin(PDPN)结合,通过FRC网络抑制肌动蛋白的收缩性,并允许淋巴结扩展。已知透明质酸受体CD44是FRC对DC做出反应所必需的,但作用机理并未完全阐明。在这里,我们使用定量的单分子超分辨率技术DNA-PAINT可视化和量化FRC质膜中PDPN聚类的调节方式。我们的结果表明CLEC-2相互作用导致形成大型PDPN簇(即以CD44依赖性方式每个群集超过12个蛋白质。这些结果表明,CD44表达需要在CLEC-2相互作用后在FRCS膜上稳定大的PDPN,这揭示了CD44通过该分子机制促进FRC和DC之间的细胞串扰。
为了提高单个DNA测序结果的性能,研究人员经常使用同一个人和各种统计聚类模型的重复来重建高性能呼叫仪。在这里,考虑了基因组Na12878的三个技术重复,并比较了五个模型类型(共识,潜在类,高斯混合物,kamila - 适应性的K-均值和随机森林),涉及四个性能指标:敏感性,精度,精度,准确性和F1评分。与不使用组合模型相比,i)共识模型提高了精度0.1%; ii)潜在类模型带来了1%的精度改善(97% - 98%),而不会损害灵敏度(= 98.9%); iii)高斯混合模型和随机森林提供了更高精确度(> 99%)但敏感性较低的呼叫; iv)卡米拉提高了精度(> 99%),并保持高灵敏度(98.8%);它显示出最好的总体表现。根据精确和F1得分指标,比较了组合多个呼叫的非监督聚类模型能够改善测序性能与先前使用的监督模型。在比较模型中,高斯混合模型和卡米拉提供了不可忽略的精度和F1得分的改进。因此,可能建议将这些模型用于呼叫集重建(来自生物或技术重复),以进行诊断或精确医学目的。
抽象目标我们先前建立的基于机器学习的聚类模型将心力衰竭分类,保留的射血分数(HFPEF)分为四种不同的表型。鉴于HFPEF的异质性病理生理学,特异性药物可能在HFPEF的特定表型中具有有利的作用。我们旨在使用现实世界中的HFPEF注册表数据集评估药物对四种表型临床结果的有效性。方法这项研究是对Pustiut-HFPEF注册中心的后分析,这是一项前瞻性,多中心,观察性研究。我们评估了以下四种不同表型中以下四种类型的后递送药物的临床有效性:血管紧张素转化酶抑制剂(ACEI)或血管紧张素受体阻滞剂(ARB),β受体阻断剂,β受体阻滞剂,矿物皮质激素受体拮抗剂(MRA)和statinins和statinins和statinins and Statinins和statinins和statinins和statins和statins。这项研究的主要终点是全因死亡和心力衰竭住院的综合。1231例患者的结果,1100(83(IQR 77,87)年,604名女性)有资格进行分析。中值随访时间为734(398,1108)天。主要终点发生在528例患者中(48.0%)。COX比例危害模型具有反概率的处理权重显示了药物对主要终点的显着有效性:表型2的MRA(加权HR(WHR)0.40,95%CI 0.21至0.21至0.75,p = 0.005);表型3的ACEI或ARB(WHR 0.66 0.48至0.92,P = 0.014)和他汀类药物治疗3(WHR 0.43(0.21至0.88),p = 0.020)。没有其他药物在四种表型中具有显着的治疗效果。结论基于机器学习的聚类可能有可能识别特定药物可能有效的人群。这项研究表明MRA,ACEI或ARB和他汀类药物对HFPEF的特定表型的有效性。试用注册号UMIN000021831。
摘要 — 药物-靶标相互作用 (DTI) 预测在药物发现和化学基因组学研究中非常重要。机器学习,尤其是深度学习,在过去几年中极大地推动了这一领域的发展。然而,学术论文中报告的性能与实际药物发现环境中的性能之间存在显著差距,例如基于随机分割的评估策略在估计现实环境中的预测性能时往往过于乐观。这种性能差距主要是由于实验数据集中隐藏的数据偏差和不适当的数据分割。在本文中,我们构建了一个低偏差 DTI 数据集,并研究了更具挑战性的数据分割策略,以改进现实设置的性能评估。具体而言,我们研究了流行的 DTI 数据集 BindingDB 中的数据偏差,并使用五种不同的数据分割策略重新评估了三种最先进的深度学习模型的预测性能:随机分割、冷药分割、支架分割和两种基于层次聚类的分割。此外,我们全面检查了六个性能指标。我们的实验结果证实了流行的随机分割的过度乐观,并表明基于层次聚类的分割更具挑战性,并且可以在现实世界的 DTI 预测设置中提供对模型通用性的更有用的评估。索引术语——药物-靶标相互作用、数据偏差、数据分割策略、性能评估
大脑中的肿瘤是由大脑内组织细胞不受管制的出现引起的。早期诊断并确定磁共振成像中肿瘤的精确位置(MRI)及其大小对于医生团队至关重要。图像分割通常被认为是医学图像分析中的初步步骤。k均值聚类已被广泛用于脑肿瘤检测。此技术的结果是群集图像的列表。这种方法的挑战是选择描绘肿瘤的适当簇部分的困难。在这项工作中,我们分析了不同图像簇的影响。然后将每个群集分为左右部分。之后,每个部分中都描绘了纹理特征。此外,还采用双边对称度量来估计包含肿瘤的簇。最后,采用连接的组件标记来确定用于脑肿瘤检测的靶标簇。已开发的技术应用于30个MRI图像。获得了87%的鼓励精度。
本文考虑了一种混合多层随机块模型 (MMLSBM),其中各层可以划分为相似网络组,每组中的网络都配备不同的随机块模型。目标是将多层网络划分为相似层的集群,并识别这些层中的社区。Jing 等人 (2020) 介绍了 MMLSBM,并开发了一种基于正则化张量分解的聚类方法 TWIST。本文提出了一种不同的技术,即交替最小化算法 (ALMA),旨在同时恢复层分区,以及估计不同层的连接概率矩阵。与 TWIST 相比,ALMA 在理论和数值上都实现了更高的精度。
摘要 近年来,我们目睹了全球越来越多的设备创建、捕获、复制和使用的数据不可阻挡地增长。对如此大量信息的处理需求促使人们研究更高的计算能力系统和专门的算法。其中,量子计算是一种基于量子理论的有前途的快速计算范式。在某些任务的计算复杂度方面,量子算法有望超越经典算法,机器学习就是其中之一,因此量子机器学习的子领域是最有前途的领域之一。在这项工作中,我们设计了一种用于 k-Means 的混合量子算法。我们算法的主要思想是以量子方式计算输入数据集中记录对之间的距离。我们表明,我们的量子算法原则上可以比经典的 k-Means 更高效,同时获得相当的聚类结果。