动机:聚类患者的浮躁数据是开发精确医学不可或缺的,因为它允许鉴定疾病亚型。当前的主要挑战是识别共享结构并降低噪声的集成多摩管数据。群集分析也越来越多地应用于单粒数据,例如,在单细胞RNA-SEQ分析中用于聚类单个细胞的转录组。该技术具有临床意义。因此,我们的动机是为了为单个和多摩尼克数据开发一种灵活而有效的光谱聚类工具。结果:我们提出了一种用于复杂的Omic数据的新光谱聚类方法。Spectrum使用一种自我调节密度感知的内核,我们开发了共享共同最近邻居的点之间的相似性。它使用张量产品图数据集成和扩散程序来减少噪声并揭示基础结构。频谱包含一种新方法,用于查找涉及特征向量分布分析的最佳簇数(K)。频谱可以自动发现高斯和非高斯结构的k。我们在21个真实表达数据集中证明了频谱相对于其他方法提供了改进的运行时间和更好的簇结果。可用性和实现:频谱可作为R cran https://cran.r-project的R软件包提供。org/web/packages/spectrum/index.html。联系人:Christopher.john@qmul.ac.uk补充信息:补充数据可在Online BioInformatics获得。
大脑可以表示为一个时间图,其中节点是大脑图谱定义的空间分布的感兴趣区域 (ROI)。边缘由应用于 fMRI 数据的动态功能连接 (dFC) 测量确定。新兴研究表明,ROI 群落的时间动态是了解大脑功能和功能障碍的有用生物标志物。现有方法大多数都受到假设静态连接的限制,或者难以扩展到许多受试者,或者是监督的(Ting 等人,2020 年;Gadgil 等人,2020 年)。基于这些限制,我们提出了一种无监督时间图深度生成模型 (TG-DGM),用于从 fMRI 数据中学习大脑活动的动态群落。我们的模型受到图动态嵌入 (GRADE) 的启发(Spasov 等人,2020 年)。具体来说,我们通过引入多图学习和主题嵌入来扩展 GRADE,使其能够量化特定主题对社区成员和动态的影响。我们证明我们的方法可以学习高质量的表示,并且考虑到时间动态可以提高生物性别分类任务的性能。可能的应用包括使用嵌入来发现新的患者类别,以及识别 ROI 的新功能网络(即集群)。
摘要银行欺诈检测是金融部门的至关重要的挑战,需要创新的方法来应对欺诈活动的发展。从传统的基于规则的系统开始,这项研究通过将机器学习算法与聚类技术合并,引入了开拓性方法。使用级联方法,依次使用适合不同欺诈模式的不同模型来对交易进行分类。该研究探索了各种模型集合以找到最有效的组合。实验结果强调了该方法在识别欺诈交易的同时保持较高的召回率时的有效性;实际上,这项工作强调了召回在该领域的重要性,而其他作品仅着眼于准确性。常规分类算法对所使用的数据集显示出效率低下,表现为平均召回率始终如一;相反,所提出的方法在准确性和召回方面产生了重大改善。对假阳性和负面因素的细致分析证实了该系统的稳健性,并承诺对未发现欺诈案件的财务损失有稳固的保障。
基因序列聚类在计算生物学和生物信息学中非常重要且重要,用于研究系统发育关系和基因功能预测等。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。 基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。 例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。 已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。 需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。算法。本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。此外,我们开发了一个多节点版本来处理大型数据集。该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。强可伸缩性测试表明,NGIA的多节点版本可以以31%的并行效率扩展32个线程。©2022 Elsevier B.V.保留所有权利。
要将以环境得出的元编码数据转换为社区矩阵进行生态分析,必须首先将序列聚集到操作分类单元(OTU)中。此任务对于包括大量带有不完整参考库的数据,包括大量的分类单元。OptimoTU提供了一种具有分类学意识的OTU聚类方法。它使用一组分类学识别的参考序列来选择最佳的遗传距离阈值,以将每个祖先分类群分组为最与后代分类单元最匹配的集群。然后,查询序列根据初步分类学标识和其祖先分类群的优化阈值聚类。该过程遵循分类学层次结构,从而将所有查询序列的所有查询序列完全分类为命名的分类学组以及占位符“ Pseudotaxa”,这些序列适合无法分类为相应等级的命名分类单元的序列。Optimutu聚类算法是作为R软件包实现的,在C ++中实现了速度的计算密集步骤,并合并了成对序列对齐的开源库库。距离也可以在外部计算,并且可以从UNIX管道中读取,从而允许大型数据集聚类,在该数据集中,整个距离矩阵将不方便地存储在内存中。Optimutu生物信息学管道包括一个完整的工作流程,用于配对端的Illumina测序数据,其中包含了质量过滤,DeNoising,Wratifact删除,分类学分类以及与Optimotu的OTU集群。开发了用于高性能计算簇的OptimoTU管道,并将其缩放到每个样品和数万个样本的数据集中。
本文介绍了一种基于闵可夫斯基数学相似性的新型聚类方法,以改进用于分类的EEG特征选择,并在机器学习的背景下实现高效的粒子群优化(PSO)。鉴于高维医学数据集的复杂性,特征选择在预防疾病和促进公共健康方面起着至关重要的作用。通过采用闵可夫斯基聚类,目标是将数据集记录分组为两个具有高特征一致性的聚类,从而通过应用 PSO 等优化技术来选择最优特征,从而提高准确性。此外,所提出的模型可以扩展到智能数据集,包括EEG和其他数据集。由于精确分类所需的特征较少,因此智能特征选择是机器学习的一个高级步骤。本文研究了影响波恩大学EEG数据集中特征选择的关键因素。将所提出的系统与各种优化和特征选择方法进行了比较,结果表明,在基于准确度测量分析和分类EEG信号方面具有卓越的性能。实验结果证实了所提出的模型作为脑电图数据分类的有用工具的有效性,准确率高达 100%。这项研究的成果有可能通过简化识别和诊断脑部疾病的过程,使相关专业的医学专家受益。从技术上讲,机器学习算法 RF、KNN、SVM、NB 和 DT 用于对选定的特征进行分类。
为了提高单个DNA测序结果的性能,研究人员经常使用同一个人和各种统计聚类模型的重复来重建高性能呼叫仪。在这里,考虑了基因组Na12878的三个技术重复,并比较了五个模型类型(共识,潜在类,高斯混合物,kamila - 适应性的K-均值和随机森林),涉及四个性能指标:敏感性,精度,精度,准确性和F1评分。与不使用组合模型相比,i)共识模型提高了精度0.1%; ii)潜在类模型带来了1%的精度改善(97% - 98%),而不会损害灵敏度(= 98.9%); iii)高斯混合模型和随机森林提供了更高精确度(> 99%)但敏感性较低的呼叫; iv)卡米拉提高了精度(> 99%),并保持高灵敏度(98.8%);它显示出最好的总体表现。根据精确和F1得分指标,比较了组合多个呼叫的非监督聚类模型能够改善测序性能与先前使用的监督模型。在比较模型中,高斯混合模型和卡米拉提供了不可忽略的精度和F1得分的改进。因此,可能建议将这些模型用于呼叫集重建(来自生物或技术重复),以进行诊断或精确医学目的。
精确药物需要准确鉴定临床相关的患者亚组。16电子健康记录为利用机器学习的主要机会提供了17种新的患者子组的方法。然而,许多现有的方法未能充分捕获诊断轨迹与疾病之间的复杂相互作用 - 19个相关风险事件,导致亚组在事件20风险中仍然可以显示出很大的异质性,并潜在的分子机制。为了应对这一挑战,我们实施了21个Vadesc-Ehr,这是一种基于变压器的自动编码器,用于聚类从电子健康记录中提取的纵向22生存数据。我们表明,Vadesc-ehr 23在合成和现实世界基准数据集上均优于具有24个已知地面真实集群标签的合成和现实基准数据集的基线方法。在应用于克罗恩病的应用中,vadesc-ehr 25成功地识别了四个不同的亚组,具有不同的诊断轨迹和风险26个特征,从而揭示了克罗恩病的临床和遗传相关因素。我们的结果27表明,Vadesc-ehr可以成为在28中发现精密医学方法的开发中发现新型患者子组的强大工具。29
用于检测神经退行性疾病(例如阿尔茨海默病或额颞叶变性)中无症状脑部变化的传统方法通常是在预定义的粒度级别上评估体积变化,例如逐体素或先验定义的感兴趣皮质体积。在这里,我们应用一种基于层次谱聚类的方法,这是一种基于图的分区技术。我们的方法使用多级分割,在标准统计框架内以数据驱动、无偏见、全面的方式检测变化。此外,谱聚类可以检测形状变化和大小变化。我们使用层次谱聚类进行了基于张量的形态测量,以检测遗传性额颞叶痴呆症倡议无症状和有症状的额颞叶变性突变携带者的变化,并将结果与更传统的基于体素张量和体素的形态测量分析的结果进行了比较。在有症状组中,基于层次谱聚类的方法产生的结果与基于体素的方法获得的结果大致一致。在无症状的 C9orf72 扩增携带者中,谱聚类检测到了内侧颞叶皮质的大小变化,而基于体素的方法只能在症状期检测到。此外,在无症状和有症状期,谱聚类方法检测到了 C9orf72 的运动前皮质形状的变化。总之,本研究显示了层次谱聚类在数据驱动的分割和检测单基因额颞叶变性的有症状和无症状阶段的结构变化方面的优点。
摘要:可再生能源(RESS)在能量混合中的渗透正在确定以分散功率产生为特征的能量情景。在Ress发电技术之间,太阳能光伏(PV)系统构成了非常有前途的选择,但是由于太阳能的间歇性质,它们的生产无法编程。PV设施与电池储能系统(BESS)之间的耦合允许在发电中实现更大的灵活性。但是,由于大量可能的配置,PV+Bess杂种植物的设计阶段具有挑战性。本文提出了一个初步程序,旨在预测一个适合与给定的PV植物配置结合的电池家族。提出的程序适用于建造的新假设工厂,以满足商业和工业负载的能源需求。根据对类似的实际植物进行的性能分析,估算了PV系统产生的能量。电池操作是通过分别调节电荷和放电的两个决策树样结构来建立的。最后,将无监督的聚类应用于所有可能的PV+Bess配置,以识别可行解决方案家族。