由于长期阅读的DNA测序技术,可以进行复杂基因组的从头基因组组件。但是,基于长阅读的组件质量最大化是一项具有挑战性的任务,需要开发专门的数据分析技术。我们提出了用于组装单倍体和二倍体生物的长DNA测序读数的新算法。组件算法构建了一个无方向的图,每个读取两个顶点是根据由k-mer分布得出的哈希函数所指出的最小化器所读取的。在图形构造过程中收集的统计信息被用作通过选择边缘来构建布局路径的功能,该边缘通过似然函数排名。对于二倍体样品,我们整合了对RefHAP算法进行分子相分化的重新配置。我们在PACBIO HIFI和纳米孔测序数据上运行了从不同物种的单倍体和二倍体样品中采集的纳米孔测序数据。与当前使用的其他软件相比,我们的算法表现出竞争精度和计算效率。我们希望这种新的发展对于为不同物种建立基因组组件的研究人员将很有用。
主要关键词