蛋白质是所有细胞过程的关键,其结构对于理解其功能和进化很重要。基于蛋白质结构的基于序列的预测在精度1中增加了,超过214)在Alphafold数据库2中可用预测结构。但是,在此规模上研究蛋白质结构需要高度焦虑的方法。在这里,我们开发了一个基于结构对齐的聚类算法4foldseek cluster4that可以群集数亿个结构。使用此方法,我们聚集了Alphafold数据库中的所有结构,识别2.30)百万个非辛氏结构簇,其中31%缺乏代表可能先前未描述过结构的注释。没有注释的群集往往很少有代表覆盖Alphafold数据库中所有蛋白质的4%。进化分析表明,大多数簇的起源都是古老的,但似乎有4%是物种,代表了较低的质量预测或从头基因出生的示例。我们还展示了如何使用结构比较来预测领域家庭及其关系,从而确定了远程结构相似性的示例。在这些分析的基础上,我们确定了与原核生物中假定的远程同源性人类免疫相关蛋白质的几个例子,这说明了该资源对研究蛋白质功能和生命树的进化的价值。
摘要:在不同投影场景下,气候模拟的时空分辨率的复杂性产生了多种气候模式。本文通过一种无监督的深度学习技术提出了一种新的数据驱动的气候分类工作,该技术可以在尺寸上降低大量时空数值气候投影数据中的大量紧凑表示。我们旨在确定捕获多个气候变量的不同区域以及在不同气候变化方案下的未来变化。我们的方法利用卷积自动编码器与K-均值聚类(标准自动编码器)和在线聚类相结合,基于sindhorn - Knopp算法(群集自动编码器),整个Conterminous美国(CONUS)(CONUS)(CONUS)捕获来自数据驱动的气候型号的独特气候式的goldement offeration Androm intery Demplyicals todlement todlement todlemant througation dynerical offer -Gromys toym intery dynerical demancortial dynerical ofderational dynerical officolt offer。 (GFDL-ESM2G)。开发的方法在多个变暖方案下以0.125 8的0.125 8将70年的GFDL-ESM2G仿真压缩为较低维空间的空间分辨率为660000倍,然后在150年的GFDL-ESM2G仿真数据中测试了150年。结果表明,五个气候群体捕获了与人类专家定义的已知气候类别相匹配的物理合理和空间稳定的气候效果。结果还表明,与使用标准自动编码器相比,使用群集自动编码器可以将聚类的计算时间限制为9.2倍。我们五个独特的气候模式是由深度学习引起的 - 基于较低维空间的聚类,从而使我们能够在整个综合美国立即提供有关水力气学及其空间异质性的见解,而无需下载大量的大气候数据集。
增加可再生能源在电力系统中的份额是成功实现能源转型的关键。最佳可再生能源选址需要采取整体方法,涉及土地、资源、环境和经济数据以及约束。在本文中,我们将太阳能光伏发电渗透到电网的问题视为时空分析,并结合针对政策制定者和投资者的决策支持。我们的目标是寻找新的模型,以最大限度地提高能源渗透和网络稳定性,同时最大限度地降低运营成本。我们展示了如何通过研究围绕共享变电站的多个太阳能光伏园区的最佳聚类来选择太阳能光伏站点以满足这些目标。这是一个组合问题,涉及给定一组光伏站点候选的所有潜在集群。我们的主要贡献在于确定并提出我们的问题与光纤网络设计中解决的所谓 SONET 问题的建模类比。我们展示了这种新的时空光伏园区布局模型如何最大限度地降低运营成本,同时提高所产生的解决方案的能量稳定性。我们还引入了 GIS 预处理步骤来降低所提方法的计算成本。我们根据真实案例研究和法属圭亚那电力系统的数据,将我们提出的基于 SONET 的模型与现有的 GIS 优化模型进行了比较。这种新方法将多个光伏园区聚合成分布在整个领土的集群。以法属圭亚那为例,相同的全球标称功率(≈45 MW)可以分布在 11 个光伏园区和 3 个集群中,而不是 3 个大型光伏园区。结果显示,当考虑到 ⩽ 5 MW 的光伏园区时,每千瓦时发电成本大幅提升,最多可增加 10 MW 的额外安装功率和 16 GWh 的额外发电量。新的集群配置还可确保解决方案的能量稳定性得到提高,从而降低网络管理员和决策者的风险。
本文考虑了一种混合多层随机块模型 (MMLSBM),其中各层可以划分为相似网络组,每组中的网络都配备不同的随机块模型。目标是将多层网络划分为相似层的集群,并识别这些层中的社区。Jing 等人 (2020) 介绍了 MMLSBM,并开发了一种基于正则化张量分解的聚类方法 TWIST。本文提出了一种不同的技术,即交替最小化算法 (ALMA),旨在同时恢复层分区,以及估计不同层的连接概率矩阵。与 TWIST 相比,ALMA 在理论和数值上都实现了更高的精度。
随着个体通过数字平均值的显着相互作用的显着增加,图中节点的聚类已成为分析大型和复杂网络的一种基础方法。在这项工作中,我们提出了深层的位置模型(DEEPLPM),这是一种端到端的生成聚类方法,将广泛使用的潜在位置模型(LPM)与图形卷积网络(GCN)编码策略相结合。此外,还引入了一种原始估计算法,以通过变异推理和使用随机梯度下降进行图形重建来整合后聚类概率的明确优化。在模拟场景上进行的数值实验突出了DeepLPM自养生的能力,以选择簇数量的较低限制,这表明其聚类能力与最先进的方法相比。最后,DEEPLPM进一步应用于Merovingian Gaul的教会网络和引文网络Cora,以说明探索大型且复杂的现实世界网络的实际兴趣。
多余着丝粒的存在是癌症的一个标志,在侵袭性肿瘤中经常观察到。着丝粒扩增的癌细胞通过特定的应对机制实现伪双极纺锤体以求生存。然而,它们在癌症中的分布和流行程度仍然很大程度上未知。在这里,我们使用 NCI60 组癌细胞系,表明应对策略的存在与着丝粒扩增相关,其中两个纺锤体极内额外着丝粒的聚集是最普遍的机制。此外,我们报告了着丝粒聚集能力与上皮-间质转化 (EMT) 之间的关联,并观察到着丝粒扩增的乳腺癌细胞中间质特征的诱导促进了聚集。
摘要:脑组织分割是使用多模态磁共振成像 (MR) 进行脑部疾病临床诊断的重要组成部分。文献中已通过许多无监督方法开发了脑组织分割。最常用的无监督方法是 K 均值、期望最大化和模糊聚类。与上述方法相比,模糊聚类方法具有相当大的优势,因为它们能够处理复杂、不确定性很大且不精确的脑图像。然而,这种方法存在数据采集过程中固有的噪声和强度不均匀性 (IIH)。为了解决这些问题,我们提出了一种模糊共识聚类算法,该算法定义了一个由投票方案产生的成员函数来对像素进行聚类。具体来说,我们首先预处理 MRI 数据,并采用基于传统模糊集和直觉集的几种分割技术。然后,我们采用投票方案来融合应用的聚类方法的结果。最后,为了评估所提出的方法,我们在两个公开可用的数据集(OASIS 和 IBSR18)上使用了众所周知的性能指标(边界测量、重叠测量和体积测量)。实验结果表明,与最近的最新技术相比,所提出的方法具有更优越的性能。所提出方法的性能还使用现实世界的自闭症谱系障碍检测问题进行了展示,与其他现有方法相比,其准确率更高。
(b)真实图像数据分布图4:通过U-NET的学习分布的相变。在(a)中,x轴是固有维度上的训练样本数量,而在(b)中,这是训练样本的总数。y轴是GL分数。我们使用(a)k = 2,n = 48和d k从3到6和(b)真实图像数据集CIFAR-10,celeba,ffhq和afhq的MOLRG分布产生的数据样本训练扩散模型。u-net记住训练数据时,GL分数很低,并且在学习基础分布时高。
量子聚类 (QC) 是一种基于量子力学的数据聚类算法,通过用高斯函数替换给定数据集中的每个点来实现。高斯函数的宽度为 𝜎 值,这是一个超参数,可以手动定义和操纵以适应应用。数值方法用于查找与聚类中心相对应的量子势的所有最小值。在此,我们研究了表达和查找与二维量子势的最小值相对应的指数多项式的所有根的数学任务。这是一项杰出的任务,因为通常无法通过分析解决此类表达式。但是,我们证明,如果所有点都包含在大小为 𝜎 的方形区域中,则只有一个最小值。这个界限不仅在通过数值方法寻找解决方案的数量方面有用,它还允许提出一种“每个块”的新数值方法。该技术通过将某些粒子组近似为加权粒子来减少粒子数量。这些发现不仅对量子聚类问题有用,而且对量子化学、固体物理和其他应用中遇到的指数多项式也有用。
CMS电磁热量表(ECAL)是由约75000铅钨(PBWO 4)晶体制成的同型热量表。它位于跟踪器和辐射热量计之间,分为两个主要部分:枪管(crystal size:2。2 x 2。2 x 23厘米),覆盖伪to | η| <1。479和端盖(晶体大小:2。9 x 2。9 x 23厘米),覆盖假性1。479 <| η| <3。0。ECAL对于重建光子和电子是必需的,以及喷气机能量和缺失横向动量的测量[1]。当电子或光子横穿ECAL时,它将能量沉积在多个晶体中(“充值”)。簇是通过收集最大能量的能量沉积物来建造的。每个群集归因于一个粒子或几个隔板颗粒。但是,电子和光子可以与ECAL前面的材料相互作用。在这种情况下,电子发射Bremsstrahung光子和光子转换为电子对,在ECAL中产生附近的多个簇。这些簇必须合并以重建初始粒子的能量。此组合称为超级收集器[2]。当前,几何方法用于重建供应商。首先,找到具有在给定阈值较高的(种子)上方的能量的簇[2]。然后,在种子周围打开一个窗口,其形状类似于(η,ϕ)平面中的胡须。之所以选择这种形状,是因为簇沿横向ϕ轴而不是由于CMS磁场引起的纵向η轴(3.8 t)。窗口的大小在种子的η位和cluster的能量上。最后,所有落入定义窗口中的群集被认为是超集群的一部分。由于几何窗口的形状,所述算法称为“胡须”。