与基因组数据库的一致性是生物信息学的基本操作,被BLAST推广了12。但是,测序的微生物基因组的速率持续增加,现在有13个数据集,现在数百万的数据集远远超出了现有的对齐工具的能力。我们14引入了词典,这是一种核苷酸序列比对工具,用于有效查询中度长度15个序列(> 500 bp),例如基因,质粒或长期读取数百万个原核生物16基因组。关键创新是构造一小部分探针K -Mers(例如n = 40,000)17“窗口覆盖”整个数据库的索引,从某种意义上说,每18个数据库基因组的每500 bp窗口都包含多个种子k -mers,每个k -mers每个都带有一个带有一个探针的共享前缀。19存储这些种子,并由他们同意的探针索引,在层次索引中可以实现20个快速和低内存可变长度匹配,伪有序,然后完全对齐。我们21表明,词典比BlastN能够与更高的灵敏度保持一致,因为查询≥1kb的查询差异从90%降至80%,然后在Small(GTDB)和大23(Allthebacteria和GenBank+GenBank+Repeq)数据库上基准基准。我们表明,与最先进的方法相比,词典词法可以达到更高的24个灵敏度,速度和较低的记忆。对25个基因的比对与来自Genbank和Refseq的234万个原核生物基因组的比对需要36秒26(稀有基因)至15分钟(16S rRNA基因)。词典MAP以标准格式27产生输出,其中包括BLAST的输出,可在MIT许可证28 https://github.com/shenwei356/lexicmap上获得。29 div>