基因序列聚类在计算生物学和生物信息学中非常重要且重要,用于研究系统发育关系和基因功能预测等。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。 基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。 例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。 已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。 需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。算法。本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。此外,我们开发了一个多节点版本来处理大型数据集。该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。强可伸缩性测试表明,NGIA的多节点版本可以以31%的并行效率扩展32个线程。©2022 Elsevier B.V.保留所有权利。