摘要目的:元编码和元基因组测序使高度多样化的环境社区的表征能够表征。估计这些社区执行的代谢功能的挑战导致了几种最新方法的发展,其中大多数方法是根据特定基因标记量身定制的。但是,测序技术进步所产生的方法的增加,驱动了能够处理异质微生物社区数据的方法。预测通常取决于其内部分析管道,并受到基础数据库的影响,这些数据库将标记基因与特定功能注释联系起来。这限制了用户通过追踪内部数据和流程来评估预测质量的能力。最后,用户受这些方法提供的特定注释的约束(例如ec数),限制了他们根据中间结果进行进一步专业分析的能力。方法:ESMECATA预测分类学官员的共识蛋白质组及其相关功能。Esmecata的关键特征是其解释性和功能。为了支持异质测序数据的灵活整合,Esmecata利用了通过分析不同测序数据集的分析获得的分类学官方。为了深入了解每种分类学的知识并解释预测功能的相关性,Esmecata确定了在UNIPROT数据库中有记录的蛋白质组织能够辅助代表的给定官能中的分类学等级。根据阈值,将Uniprot蛋白质组的蛋白聚类并过滤,以创建共识蛋白质组。这些共有的蛋白质组会自动用功能信息(例如,EC数字,GO术语)注释,但它们也被设计为用于进一步的自定义注释工作流。功能注释在功能表中报道,该功能表可以充满分类的丰度,以产生全面的功能性文件。结果:ESMECATA预测已使用多个数据集验证,并将其与最新方法进行了比较。此外,它被应用于甲烷剂反应器的新型元编码数据集,表征了微生物群落和沼气在不同的时间点和进气条件上的产生。我们的结果证明了沼气之间的联系
抽象动机:由于DNA测序的进步,现在常规地进行了环境微生物群落的分类学分析。确定这些群落在全球生物地球化学周期中的作用需要鉴定其代谢功能,例如氢氧化,还原和碳固定。这些功能可以直接从宏基因组学数据中推断出来,但是在许多环境应用中,MetabarCoding仍然是选择的方法。从元法编码数据及其整合到地球化学循环的粗粒表示中,代谢功能的重建仍然是当今有效的生物信息学问题。结果:我们开发了一条称为Tabigecy的管道,该管道利用分类学官员来预测构成生物地球化学周期的代谢功能。在第一个步骤中,Tabigecy使用该工具Esmecata从输入液位中预测共识蛋白质组。为了优化此过程,我们生成了一个预先计算的数据库,其中包含来自Uniprot的2,404个分类单元的信息。使用BigeCyhmm搜索了共有的蛋白质组织,BigeCyhmm是一个新开发的Python软件包,依靠隐藏的Markov模型来识别参与生物地球化学周期代谢功能的关键酶。然后将代谢功能投射到周期的粗粒表示上。我们将塔博基(Tabigecy)应用于两个盐洞数据集,并通过对样品进行的微生物活性和水力化学测量结果验证了其预测。结果突出了研究微生物群落对地理化学过程的影响的方法。关键字:微生物群落,生物地球化学周期,代谢功能,分类学官员