摘要:微生物和植物产生的天然产物 (NP) 是药物、除草剂和杀菌剂的主要来源。得益于 DNA 测序、生物信息学和基因组挖掘工具的最新进展,多年来已经生成了大量有关 NP 生物合成的数据,这些数据越来越多地被利用来开发用于 NP 发现的机器学习 (ML) 工具。在这篇综述中,我们讨论了开发和应用 ML 工具的最新进展,这些工具用于探索可以用基因组语言编码的潜在 NP 并预测 NP 的生物活性类型。我们还研究了与 NP 研究的 ML 工具的开发和应用相关的技术挑战。关键词:机器学习、天然产物、基因组挖掘、生物合成基因簇、生物活性预测、模型构建■介绍数千年来,天然产物 (NP) 对人类健康和福祉至关重要。1 DNA 测序、生物信息学和基因组挖掘的最新进展使得 NP 的发现更加高效。然而,随着越来越多的化合物被发现,避免发现先前已鉴定的 NPs 变得越来越具有挑战性。此外,探索 NPs 的生物学功能仍然很困难,特别是因为一些 NPs 的数量非常少,阻碍了对其生物活性的广泛筛选。为了帮助发现 NPs 并表征其生物活性,研究人员开发了各种策略,例如高通量生物合成基因簇 (BGC) 发现、2、3 通过 CRISPR/Cas9 介导的基因组编辑激活 BGC、4、5
Lophiotrema 属是 Lophiotremataceae 科中的一种子囊菌属真菌。该属的成员作为内生菌已被从多种宿主植物以及陆地和海洋生境中的植物碎片中分离出来,它们被认为在这些环境中起着腐生菌的作用。Lophiotrema sp. F6932 是从新加坡乌敏岛的白色红树林 (Avicennia officinalis) 中分离出来的。该真菌的粗提取物表现出强效抗菌活性,通过生物测定指导的生物活性成分分离和结构解析,分离出了 palmarumycin C 8 和一种新的类似物 palmarumycin CP 30 。全基因组测序分析鉴定出一种假定的 1 型迭代 PKS (iPKS),该 PKS 推测参与了 palmarumycin 的生物合成。为了验证帕尔马霉素 (PAL) 基因簇参与这些化合物的生物合成,我们采用核糖核蛋白 (RNP) 介导的 CRISPR-Cas9 诱导 PAL 中酮合酶 (KS) 结构域的靶向缺失。KS 结构域上游和下游的双链断裂 (DSB) 之后进行同源定向修复 (HDR),其中潮霉素抗性盒两侧有 50 bp 的同源性。与野生型菌株相比,所得的缺失突变体表现出完全不同的表型,因为它们具有不同的菌落形态并且不再能够产生帕尔马霉素或黑色素。因此,这项研究证实了 PAL 参与了帕尔马霉素的生物合成,并为实施类似方法表征这种研究不足的真菌菌株中其他感兴趣的基因簇铺平了道路。
摘要这项研究的目的是对来自波兰北部的一个地理位置收获的蜂蜜的全基因组分析和评估细菌分离株的抗菌潜力。总共源自三个蜂蜜样品,总共获得了132个菌株,CFAM的抗菌活性(无细胞后培养培养基)用作菌株选择和详细基因组研究的标准。两个测试的分离株(SZA14和SZA16)被归类为帕拉酸芽孢杆菌,基于其ANI和系统发育分析的相关性,一个分离株(SZB3)为枯草芽孢杆菌。分离株SZA14和SZA16是从相同的蜂蜜样品中收获的,核苷酸同一性为98.96%。已经发现所有三个分离株都是不同抗菌化合物的潜在生产者。二次代谢产物基因组挖掘管道(抗石)鉴定了14个基因簇编码为非核糖体肽合成酶(NRP),Polyketide合酶(PKSS)和核糖体合成的核糖体合成和核糖体合成的,并且是经过转化的肽(Ripps),这些肽是新型替代品的替代品。Bagel4分析揭示了分离株SZA14和SZA16中有九个假定的基因簇(包括两个分离物中存在的六个类似的簇,编码肠球菌NKR-5-3B,Haloduracin-alpha,sonorensin,sonorensin,bottromycin and comx2,comx2,comx2,comx2,comx2,suloduracin-alloduracin- SZB3(能力因子,孢子杀伤因子,枯草脂蛋白A和乙酰肽)。这项研究的结果证实了蜂蜜衍生的芽孢杆菌属。菌株可以被认为是各种抗菌剂的潜在生产者。
数百年来,麦角菌一直是人类与谷物关系的祸根。麦角菌是许多加拿大谷物的真菌病原体,导致受生物碱霉菌毒素污染的深色菌核生长。麦角生物碱合成 (EAS) 基因簇产生的代谢物也与严重危害(包括麦角中毒)以及令人兴奋的潜在治疗方法有关。在本研究中,我们探索了麦角菌核的历史参考样本,以及 2014 年至 2024 年的数千个未表征的收获样本。该项目的目标是以比以前更大的规模检查麦角菌的附属基因组。进一步了解麦角的地理和环境差异以及基因型变异可能会为农业管理和制药潜力提供发展。
由细菌(尤其是土壤放线菌)生产的天然产物(NP)通常具有多种生物活性,并且在人类健康,农业和生物技术中起着至关重要的作用。土壤放线菌基因组包含大量预测的生物合成基因簇(BGC)。了解在生态环境中管理NP产生的因素,并激活土壤放线菌中的隐性BGC,这将为研究人员提供大量分子,并具有潜在的新颖应用。在这里,我们重点介绍了采用生态启发的方法的NP发现策略的最新进展,并讨论了理解负责激活NP生产的环境信号的重要性,尤其是在土壤微生物社区环境中,以及仍然存在的挑战。
简单摘要:根瘤菌ETLI MIM1(REMIM1)具有活性在自由生活和共生中的VI型蛋白质分泌系统。T6SS是一种纳米芳烃,将称为效应子的蛋白质分泌为真核和原核靶细胞。REMIM1 T6SS基因簇编码有毒效应子(RE78)以及免疫蛋白(RE79),如在大肠杆菌中表达时所证明的。另外,观察到RE78蛋白的毒性作用在细胞质之外,因为仅当将信号肽添加到其中时才发生对大肠杆菌的毒性作用。RE79在Remim1 Periplasm中发现,并且与T6SS的易位无关。此外,RE78/RE79对还参与细菌竞争和结节占用率。更好地理解该分泌系统的作用对于选择高度竞争性根茎的接种剂可能非常有用。
天然产物 (NP) 是人类治疗剂和杀虫剂的重要来源。为了防止生物活性 NP 造成自我伤害,一些微生物生产者使用自我抗性基因来保护自己。一种有效的策略是使用自我抗性酶 (SRE),它是原始代谢酶的轻微突变版本,对有毒 NP 具有抗性但仍具有功能性。基因簇中 SRE 的存在可以作为该途径合成的 NP 生物活性的预测窗口。在此重点中,我们总结了利用自我抗性基因进行保护的 NP 生物合成途径的代表性示例。基于自我抗性基因识别的最新发现有助于弥合 NP 发现和功能分配的活性引导方法和基因组驱动方法之间的差距。
图1在小鼠中产生人类疾病遗传模型的基因替代方法(GR)的示例:APOE -GR等位基因。对于这些线,编码小鼠APOE基因簇(APOE,APOC1,APOC4和APOC2)的小鼠基因组区域(30 kb)被人类基因组的47-kb共同区域完全替代。对于这些GR等位基因,从小鼠到人类序列的过渡发生在不受保存的区域内,仅是小鼠Tomm40基因的3',并且从人类apoc2基因仅3'的非保守区域中,从人类tome序列到小鼠序列的过渡。47 kb的apoE -gr等位基因本身是完全人类的APOEε4单倍型序列。在此APOC -GR模型集中还生成了带有单个核苷酸变化的匹配线,引入了APOEε3编码变化。
图1在小鼠中产生人类疾病遗传模型的基因替代方法(GR)的示例:APOE -GR等位基因。对于这些线,编码小鼠APOE基因簇(APOE,APOC1,APOC4和APOC2)的小鼠基因组区域(30 kb)被人类基因组的47-kb共同区域完全替代。对于这些GR等位基因,从小鼠到人类序列的过渡发生在不受保存的区域内,仅是小鼠Tomm40基因的3',并且从人类apoc2基因仅3'的非保守区域中,从人类tome序列到小鼠序列的过渡。47 kb的apoE -gr等位基因本身是完全人类的APOEε4单倍型序列。在此APOC -GR模型集中还生成了带有单个核苷酸变化的匹配线,引入了APOEε3编码变化。
在2015年,我们定义了有关生物合成基因簇(Mibig)的最小信息:一种标准化的数据格式,描述了最小必需的信息,以独特地表征BGC。我们同时以这种格式构建了一个随附的BGC条目的在线数据库,此后,该数据被社区广泛用作BGC的参考数据集。在这里,我们描述了Mibig 3.0,一个数据库更新,包括大规模验证和重新通知现有条目,与自然产品ATLAS数据库的广泛交联以及669个新条目。特别关注复合结构和生物活性的注释以及蛋白质领域的选择性。在一起,这些新功能使数据库保持最新,并将为科学社区提供新的机会,以便使用其免费可用的数据,例如培训新机器学习模型,以预测各种天然产品的序列结构功能关系。