摘要。海洋氮 (N 2 ) 固定是一种具有全球意义的生物地球化学过程,由一群特殊的原核生物 (固氮菌) 进行,但我们对其生态学的理解在不断发展。尽管海洋 N 2 固定通常归因于蓝藻固氮菌,但间接证据表明非蓝藻固氮菌 (NCD) 也可能很重要。一种广泛用于了解固氮菌多样性和生物地理学的方法是对 nifH 基因的一部分进行聚合酶链式反应 (PCR) 扩增,该基因编码 N 2 固定酶复合物固氮酶的结构成分。存在一系列生物信息学工具来处理 nifH 扩增子数据;然而,缺乏标准化实践阻碍了交叉研究比较。这导致错失了更彻底评估固氮菌多样性和生物地理学以及它们对海洋氮循环的潜在贡献的机会。为了解决这些知识空白,我们设计了一个生物信息学工作流程,以标准化高通量测序 (HTS) 产生的 nifH 扩增子数据集的处理。使用专门的 DADA2 流程高效一致地处理多个数据集,以识别扩增子序列变体 (ASV)。然后,一系列可定制的后流程阶段检测并丢弃虚假的 nifH 序列,并使用多个参考数据库和分类方法注释后续质量过滤的 nifH ASV。这个新开发的工作流程用于重新处理几乎所有来自海洋研究的公开可用的 nifH 扩增子 HTS 数据集,并生成一个全面的 nifH ASV 数据库,其中包含从 21 项研究中汇总的 9383 个 ASV,这些研究代表了全球海洋中的固氮菌种群。对于每个样本,数据库都包含从 Simons 合作海洋图集项目 (CMAP) 获得的物理和化学元数据。在这里,我们展示了该数据库在揭示主要固氮菌群的全球生物地理模式方面的实用性,并强调了海面温度的影响。工作流程和 nifH ASV 数据库为研究 nifH 扩增子 HTS 捕获的海洋 N 2 固定和固氮菌多样性提供了一个强大的框架。可以轻松添加针对研究不足的海洋区域的未来数据集,用户可以根据其特定重点调整所包含的参数和研究。工作流程和数据库分别在 GitHub(https://github.com/jdmagasin/nifH-ASV-workflow,最后访问时间:2025 年 1 月 21 日;Morando 等人,2024c)和 Figshare(https://doi.org/10.6084/m9.gshare.23795943.v2;Morando 等人,2024b)上可用。
主要关键词