Loading...
机构名称:
¥ 2.0

与基因组数据库的一致性是生物信息学的基本操作,被BLAST推广了12。但是,测序的微生物基因组的速率持续增加,现在有13个数据集,现在数百万的数据集远远超出了现有的对齐工具的能力。我们14引入了词典,这是一种核苷酸序列比对工具,用于有效查询中度长度15个序列(> 500 bp),例如基因,质粒或长期读取数百万个原核生物16基因组。关键创新是构造一小部分探针K -Mers(例如n = 40,000)17“窗口覆盖”整个数据库的索引,从某种意义上说,每18个数据库基因组的每500 bp窗口都包含多个种子k -mers,每个k -mers每个都带有一个带有一个探针的共享前缀。19存储这些种子,并由他们同意的探针索引,在层次索引中可以实现20个快速和低内存可变长度匹配,伪有序,然后完全对齐。我们21表明,词典比BlastN能够与更高的灵敏度保持一致,因为查询≥1kb的查询差异从90%降至80%,然后在Small(GTDB)和大23(Allthebacteria和GenBank+GenBank+Repeq)数据库上基准基准。我们表明,与最先进的方法相比,词典词法可以达到更高的24个灵敏度,速度和较低的记忆。对25个基因的比对与来自Genbank和Refseq的234万个原核生物基因组的比对需要36秒26(稀有基因)至15分钟(16S rRNA基因)。词典MAP以标准格式27产生输出,其中包括BLAST的输出,可在MIT许可证28 https://github.com/shenwei356/lexicmap上获得。29 div>

词典:对数百万...

词典:对数百万...PDF文件第1页

词典:对数百万...PDF文件第2页

词典:对数百万...PDF文件第3页

词典:对数百万...PDF文件第4页

词典:对数百万...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0
2024 年

...

¥5.0
2024 年
¥1.0
2023 年
¥1.0
2024 年

...

¥1.0
2023 年
¥1.0
2025 年

...

¥1.0
2025 年

...

¥1.0
2024 年
¥8.0
2023 年
¥1.0
2024 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0
2024 年
¥1.0
1900 年
¥1.0
2024 年
¥1.0
2024 年

...

¥4.0