(‡等等贡献。∗应向谁解决。)9公共存储库中可用的生物测序数据量正在成倍增长,形成了10个宝贵的生物医学研究资源。然而,使其在11种生活和数据科学中的研究人员可以访问且易于访问是一个未解决的问题。在这项工作中,我们利用了最近开发的,非常有效的12个数据结构和算法来表示序列集。我们在所有13个生命的进化枝中制作了DNA序列的石柄,包括病毒,细菌,真菌,植物,动物和人类,都可以完全搜索。我们的索引可供研究社区免费使用。在单个消费者硬盘驱动器(≈100USD)上,输入序列(最多15 5800×)的高度压缩表示形式,使使用可使用的有价值的资源成本效益和16个易于运输。我们提出了一种基本的方法论框架,称为Metagraph,该框架使我们使用注释的DE Bruijn图可缩减索引非常大的DNA或蛋白质序列。我们证明了18个可行性,即索引现有的测序数据的全部范围,并提出新的方法,以实现高效和成本-19有效的全文搜索,按点数为0.10美元,每个查询的MPB $ 0.10。我们探索了几个实际用例20,以挖掘现有的档案,以进行有趣的关联,并证明了我们对综合21分析的索引的实用性。22
主要关键词