微生物组研究产生了大量数据,从而产生了大量公开访问的样本。这些样品的准确注释对于有效利用科学学科的微生物组数据至关重要。然而,由于缺乏必要的注释,尤其是关于收集位置和样品生物群落信息,这显着阻碍了环境微生物组的研究。在这项研究中,我们介绍了使用神经网络和转移学习的一种新型方法,以增强MGNIFY数据库中数以千计的微生物组样品的生物群体标记,这些数据库的信息不完整。我们的发现表明,在缺乏详细的生物群体注释的16,507个样品中,元数据的准确率达到了96.7%。值得注意的是,Meta-sorter为代表性的环境样本提供了精确的分类,这些样本以前被模棱两可地标记为Mgnify中的“海洋”,从而阐明了它们在底栖和水柱环境中的特定起源。此外,元居住者有效地区分了从人类环境相互作用中得出的样本,从而在环境和与人类相关的研究之间有明显的差异。通过改善众多微生物群落样本的生物群落标签信息的完整性,我们的研究促进了跨不同学科的更准确的知识发现,对环境研究的影响特别。©2023作者。这是CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)下的开放访问文章。由Elsevier B.V.代表中国环境科学研究所,中国环境科学学院出版。
主要关键词