基因组测序技术和较低成本的抽象进步使得探索了许多已知和新颖的环境和微生物组。这导致了存放在在线存储库中的原始序列数据的指数增长。宏基因组和元文字数据集通常在特定的生物学问题上进行分析。然而,人们普遍认为,这些数据集由一定比例的序列组成,这些序列与任何当前已知的生物学序列没有相似之处,并且这种所谓的“暗物质”通常被排除在下游分析中。在这项研究中,开发了一个系统框架来组装,识别和测量不同人类微生物中存在的未知序列的比例。该框架应用于40个不同的研究,包括963个样本,涵盖了10种不同的人类微生物组,包括粪便,口腔,肺,皮肤和循环系统微生物群。我们发现,尽管人类微生物组是研究最广泛的研究组之一,但平均有2%的组装序列尚未在分类学上定义。然而,这一比例在不同的微生物组之间变化很大,对于与环境有更多相互作用的皮肤和口服微生物组的高达25%。根据本研究中发现的这些分类未知序列计算出1.64%的未知序列的分类表征率。跨研究比较导致不同样品和/或微生物组中类似未知序列的鉴定。我们的计算框架和生产的新型未知序列都是公开的,可用于将来的交叉引用。我们的方法导致发现了几种与公共数据库中序列没有相似性的新型病毒基因组。其中一些是广泛的,因为它们在不同的微生物组和研究中发现。因此,我们的研究说明了未知序列的系统表征如何帮助发现新型微生物,我们呼吁研究界有系统地整理并共享来自元基因组研究的未知序列,以提高未知序列空间的速率。
主要关键词