为了提高单个DNA测序结果的性能,研究人员经常使用同一个人和各种统计聚类模型的重复来重建高性能呼叫仪。在这里,考虑了基因组Na12878的三个技术重复,并比较了五个模型类型(共识,潜在类,高斯混合物,kamila - 适应性的K-均值和随机森林),涉及四个性能指标:敏感性,精度,精度,准确性和F1评分。与不使用组合模型相比,i)共识模型提高了精度0.1%; ii)潜在类模型带来了1%的精度改善(97% - 98%),而不会损害灵敏度(= 98.9%); iii)高斯混合模型和随机森林提供了更高精确度(> 99%)但敏感性较低的呼叫; iv)卡米拉提高了精度(> 99%),并保持高灵敏度(98.8%);它显示出最好的总体表现。根据精确和F1得分指标,比较了组合多个呼叫的非监督聚类模型能够改善测序性能与先前使用的监督模型。在比较模型中,高斯混合模型和卡米拉提供了不可忽略的精度和F1得分的改进。因此,可能建议将这些模型用于呼叫集重建(来自生物或技术重复),以进行诊断或精确医学目的。
增加可再生能源在电力系统中的份额是成功实现能源转型的关键。最佳可再生能源选址需要采取整体方法,涉及土地、资源、环境和经济数据以及约束。在本文中,我们将太阳能光伏发电渗透到电网的问题视为时空分析,并结合针对政策制定者和投资者的决策支持。我们的目标是寻找新的模型,以最大限度地提高能源渗透和网络稳定性,同时最大限度地降低运营成本。我们展示了如何通过研究围绕共享变电站的多个太阳能光伏园区的最佳聚类来选择太阳能光伏站点以满足这些目标。这是一个组合问题,涉及给定一组光伏站点候选的所有潜在集群。我们的主要贡献在于确定并提出我们的问题与光纤网络设计中解决的所谓 SONET 问题的建模类比。我们展示了这种新的时空光伏园区布局模型如何最大限度地降低运营成本,同时提高所产生的解决方案的能量稳定性。我们还引入了 GIS 预处理步骤来降低所提方法的计算成本。我们根据真实案例研究和法属圭亚那电力系统的数据,将我们提出的基于 SONET 的模型与现有的 GIS 优化模型进行了比较。这种新方法将多个光伏园区聚合成分布在整个领土的集群。以法属圭亚那为例,相同的全球标称功率(≈45 MW)可以分布在 11 个光伏园区和 3 个集群中,而不是 3 个大型光伏园区。结果显示,当考虑到 ⩽ 5 MW 的光伏园区时,每千瓦时发电成本大幅提升,最多可增加 10 MW 的额外安装功率和 16 GWh 的额外发电量。新的集群配置还可确保解决方案的能量稳定性得到提高,从而降低网络管理员和决策者的风险。
图 3 . 秩检验。对相似性网络融合 (SNF)、基础网络集成和血常规获得的簇中心力衰竭恶化的累积发生率曲线进行成对对数秩检验,并绘制对数秩 p 值的平均 -log10。对数秩 p 值的平均 -log10 越高,心力衰竭恶化结果的簇分离效果越好(4 年随访)。最佳结果是应用相似性网络融合 (SNF) 来整合组学数据,然后将其分成 8 个簇。
通过将无监督和监督的机器学习方法结合起来,我们提出了一个称为Usmorph的框架,以进行星系形态的自动分类。在这项工作中,我们通过提出基于Convnext大型模型编码的算法来更新无监督的机器学习(UML)步骤,以提高未标记的星系形态分类的效率。该方法可以概括为三个关键方面,如下所示:(1)卷积自动编码器用于图像降级和重新冲突,并且模型的旋转不变性通过极性坐标扩展提高; (2)利用名为Convnext的预训练的卷积神经网络(CNN)来编码图像数据。通过主体组合分析(PCA)维度降低进一步压缩了这些特征; (3)采用基于装袋的多模型投票分类算法来增强鲁棒性。,我们将此模型应用于宇宙场中的i -band样品的i -band图像。与原始的无监督方法相比,新方法所需的聚类组的数量从100减少到20。最后,我们设法对大约53%的星系进行了分类,从而显着提高了分类效率。为了验证形态层化的有效性,我们选择了M ∗> 10 10m⊙的大型星系进行形态学参数测试。分类结果与星系在多个参数表面上的物理特性之间的相应规则与现有演化模型一致。增强的UML方法将来将支持中国空间站望远镜。我们的方法证明了使用大型模型编码对星系形态进行分类的可行性,这不仅提高了星系形态分类的效率,而且还节省了时间和人力。此外,与原始UML模型相比,增强的分类性能在定性分析中更为明显,并且成功超过了更多的参数测试。
1美国杜克大学医学院,美国北卡罗来纳州达勒姆大学医学院,美国2杜克大学血液学典型科学系高维细胞多摩学数据对于理解生物控制的各个层次至关重要。单一的'Omic方法提供了重要的见解,但在处理基因,蛋白质,代谢产物以及其他方面的复杂关系方面常常缺乏。在这里,我们提出了一种称为Gaudi的新颖,非线性和无监督的方法(通过UMAP数据集成进行组聚集),该方法利用独立的UMAP嵌入来进行多种数据类型的并发分析。Gaudi比几种最先进的方法更好地发现不同的OMIC数据之间的非线性关系。这种方法不仅通过它们的多摩尼克曲线群簇样本,而且还识别了每个OMICS数据集的潜在因素,从而促进对每个群集有助于的基本特征的解释。因此,Gaudi促进了更直观,可解释的可视化,从而从广泛的实验设计中识别出新颖的见解和潜在的生物标志物。引言多摩变分析整合了各种数据类型,例如基因组学,蛋白质组学和代谢组学。组合多种OMICS模式比单独分析每种数据类型时,有可能发现新颖的见解和生物标志物(1,2)。高通量技术的增长促使OMICS数据呈指数增加,这突显了对新的集成方法的迫切需求。传统的多摩学集成方法主要集中在降低尺寸技术上。例如,在RGCCA(3)中使用了基于规范相关分析(CCA)的方法,而MCIA中使用了共惯性分析(4)。同样,贝叶斯因子分析基于MOFA+(5)等方法,负基质分解对于Intnmf(6),主成分分析(7)和独立组件分析是TICA(8)的基础。尽管这些方法已在各种OMICS数据集和生物环境中应用,但它们的有效性和局限性各不相同,强调了在其应用中需要仔细考虑的需求(9)。这些方法共享的中心限制是它们对线性假设的依赖。虽然在某些情况下合适,但这种假设可能不足以准确捕获复合物,通常是非线性的相互作用(10,11)。此外,它们的计算强度构成了挑战,尤其是对于大型数据集。应对这些挑战,最近的进步已转向非线性整合方法(9,10)。均匀的歧管近似和投影(UMAP)是一种降低技术,可以揭示复杂数据集中的基础结构(12)。通过将流形学习与拓扑数据分析相结合,它可以有效地可视化较低空间中的高维数据。UMAP通过有效地从PCA和T-SNE等其他方法中脱颖而出
在微生物群落测序中,涉及细菌核糖体16S rDNA或真菌ITS,靶向基因是分类学分配的基础。传统的生物信息程序已有数十年的历史使用了一个聚类协议,该协议通过该协议将序列汇总到共享百分比身份的包装中,通常为97%,以产生运营技术单位(OTU)。数据处理方法中的进展导致了最小化技术测序符错误的可能性,这是OTU选择的主要原因,而是分析确切的Amplicon序列变体(ASV),这是一种选择,这会产生较少的聚集读数。我们已经在相同16S的元编码细菌扩增子数据集上测试了这两个程序,这些数据集包含来自17个相邻栖息地的一系列样品,这些样品跨越了700米长的不同生态条件的700米长的样本,这些样本在从农田,通过山地,森林,森林过渡到同一海岸的梯度,从农田跨度跨越了梯度。这种设计允许扫描高生物多样性盆地,并测量该地区的α,β和伽玛多样性,以验证生物信息学对十个不同生态索引和其他参数的值的效果。将两个级别的进行性OTU聚类(99%和97%)与ASV数据进行了比较。结果表明,OTU群集成比例地导致了物种多样性的生态指标值的明显低估,以及有关直接使用ASV数据的主导性和均匀性指数的扭曲行为。多元定序分析在树拓扑和连贯性方面也引起了敏感。总体而言,数据支持这样的观点:基于参考的OTU聚类带来了几种误导性的劣势,包括缺少新颖的分类单元的风险,这些偏见尚未在数据库中引用。由于其替代品作为从头聚类的替代方案,另一方面,由于计算需求较重和结果可比性,尤其是对于包含几种但未表征的物种的环境研究,至少对于原核生物而言,与OTU Clus-Clus-Clus-tering titer titer catiftitions catiftitions cotoff cotoff cotoff cotoff conforp的含义,至少是基于ASV的直接分析。
摘要 - 随着机器学习的更广泛采用以及对数据隐私的越来越关注,联邦学习(FL)受到了极大的关注。FL计划通常使一组参与者(即数据所有者)使用其本地数据单独训练机器学习模型,然后将其通过中央服务器的协调来汇总以构建全局FL模型。对标准FL的改进包括(i)通过利用梯度稀疏和(ii)通过采用隐私性汇总(PPAGG)协议来增强聚合的安全性,从而减少梯度传输的通信开销。但是,由于用户稀疏梯度向量的异质性,最新的PPAGG协议并不能轻易与梯度稀疏相互互操作。为了解决此问题,我们提出了一种动态用户聚类(DUC)方法,并采用一组支持协议,根据PPAGG协议和梯度稀疏技术的性质将用户分配到集群中,提供安全性的质量和通信效率。实验结果表明,与基准相比,DUC-FL显着降低了通信开销,并实现了相似的模型精度。所提出的协议的简单性使其对实施和进一步的改进都具有吸引力。
本文介绍了一种基于闵可夫斯基数学相似性的新型聚类方法,以改进用于分类的EEG特征选择,并在机器学习的背景下实现高效的粒子群优化(PSO)。鉴于高维医学数据集的复杂性,特征选择在预防疾病和促进公共健康方面起着至关重要的作用。通过采用闵可夫斯基聚类,目标是将数据集记录分组为两个具有高特征一致性的聚类,从而通过应用 PSO 等优化技术来选择最优特征,从而提高准确性。此外,所提出的模型可以扩展到智能数据集,包括EEG和其他数据集。由于精确分类所需的特征较少,因此智能特征选择是机器学习的一个高级步骤。本文研究了影响波恩大学EEG数据集中特征选择的关键因素。将所提出的系统与各种优化和特征选择方法进行了比较,结果表明,在基于准确度测量分析和分类EEG信号方面具有卓越的性能。实验结果证实了所提出的模型作为脑电图数据分类的有用工具的有效性,准确率高达 100%。这项研究的成果有可能通过简化识别和诊断脑部疾病的过程,使相关专业的医学专家受益。从技术上讲,机器学习算法 RF、KNN、SVM、NB 和 DT 用于对选定的特征进行分类。
1 趋化因子信号传导组,免疫学和肿瘤学系,国家生物技术中心/CSIC,坎托布兰科校区,28049,马德里,西班牙。 2 林雪平大学卫生、医学和护理科学系诊断和专科医学科,58185,林雪平,瑞典。 3 玛格丽塔萨拉斯生物研究中心(CIB-CSIC),28040,马德里,西班牙。 4 生物计算部门,国家生物技术中心(CNB-CSIC),Cantoblanco 校区,28049 马德里,西班牙。 5 西班牙马德里公主大学医院(IIS-Princesa)健康研究所免疫学系,28006。 6 加拿大安大略省汉密尔顿市麦克马斯特大学施罗德过敏和免疫学研究所麦克马斯特免疫学研究中心 (MIRC) 医学系,邮编 L8S 4L8。 7 弗朗西斯科维多利亚大学(UFV)实验科学学院,28223,马德里,西班牙。 8 B 淋巴细胞动力学,免疫学和肿瘤学系,国家生物技术中心 (CNB)/CSIC,坎托布兰科校区,28049,马德里,西班牙。 9 神经退行性疾病生物医学研究网络中心(CIBERNED),卡洛斯三世健康研究所,28029 马德里,西班牙 10 X 射线晶体学部门,大分子结构系,国立生物技术中心/CSIC,坎托布兰科校区,28049,马德里,西班牙。 * 通讯作者:Mario Mellado,西班牙马德里 28049 Cantoblanco, Darwin 3,CNB/CSIC 免疫学和肿瘤学系。电话:(+34)91/585-4852;传真:(+34)91/372-0493;邮箱: mmellado@cnb.csic.es
摘要我们通过将近地表的近表面空气温度与行星边界层高度进行聚类,从而引入了新的方法论进步,以表征分析的城市内群集。为了说明这种方法,我们分析了三个热浪(HWS):2019年在巴黎,2018年的HW,蒙特利尔的2018 HW和Zurich的2017 HW。我们在热波事件发生之前,期间和之后评估基于群集的特征。,尽管该聚类通过中等分辨率成像光谱仪(MODIS)土地覆盖数据获得的建筑区域确定的城市群集与内置区域保持一致,但也可以识别出跨越几公里的其他当地热点,并扩展到建筑区域之外。使用客观的滞后模型,我们进一步确定了地面存储通量和全波向下辐射通量之间的磁滞循环的总体强度系数,在热浪期间,农村簇的城市群集的范围从0.414到0.457,从0.126到0.126到0.157。在所有城市中,随着热浪的进展,我们观察到累积的地面热通量中的加油率模式。这种提出的两组分聚类方法的未来发展,并将更具影响力的物理学和空间和时间分辨率的进步整合在一起,将为城市气候分析的城市提供更全面的特征。