家族A DNA聚合酶(Polas)形成了参与DNA复制和修复的现有聚合酶的重要且研究的一类。否则,尽管在独立的,专门的作品中表征了多个子家族,但到目前为止,他们的综合性分类却缺少。因此,我们重新审查了所有目前可用的pola semence,将它们的成对相似性转化为欧几里得空间中的位置,将它们分为19个主要簇。中有11个对应于已知的亚家族,但以前没有八个特征。对于每个组,我们都会汇编它们的一般特征,检查其系统发育关系,并在基本序列基序中进行保护分析。大多数亚家族与生命的特定领域有关(包括噬菌体),但一个亚科出现在细菌,古细菌和真核生物中。我们还表明,两个新的小家族含有功能性酶。我们使用alphafold2来生成缺乏实验降低结构的所有群集的高牢固预测模型。我们确定了涉及结构变化,有序的插入和明显的尿嘧啶-DNA糖基酶(UDG)结构域的明显结构掺入的新的保守效果。最后,T7样噬菌体子集的网络和结构分析表明,将3'–5'EXO和POL结构域分裂为两个单独的基因,第一次在Polas中观察到。
蛋白激酶功能和与药物的相互作用部分由DFG和w-C-螺旋序的运动控制,这使激酶能够采用各种构象状态。小分子配体引起具有不同选择性谱和停留时间的治疗作用,通常取决于它们结合的激酶构象。然而,在不活动状态下,实验确定的激酶的实验确定的结构数据的可用性限制了该主要蛋白质家族的药物发现工作。基于AI的现代结构建模方法具有探索以前实验未知的可吸毒构象空间的潜力。在这里,我们首先评估了PDB中激酶的当前构象空间以及由Alphafold2(AF2)(1)(1)和Esmfold(2)生成的模型,这是两种基于AI的显着结构预测方法。然后,我们根据此参数探索构象多样性的能力,研究了AF2在各种多序列比对(MSA)深度下预测不同构象中的激酶结构的能力。我们的结果表明,在PDB中,AF2和ESMFOLD产生的结构模型存在偏差,而Esmfold朝着活跃状态中的激酶结构而不是替代构象,尤其是DFG基序控制的构象。最后,我们证明,使用AF2在较低的MSA深度上预测激酶结构可以探索这些替代构型的空间,包括识别398个激酶的先前未观察到的构象。我们对AF2对结构建模的分析结果创造了一种新的途径,以追求新的治疗剂,以针对臭名昭著的难以靶向的蛋白质家族。
摘要:机器学习 (ML) 识别共价配位位点可能会加速靶向共价抑制剂的设计,并有助于扩大可用药的蛋白质组空间。本文我们报告了基于树的模型和卷积神经网络 (CNN) 的严格开发和验证,这些模型和神经网络是在新近整理的数据库 (LigCys3D) 上训练的,该数据库包含近 800 种蛋白质中的 1,000 多个配位半胱氨酸,由蛋白质数据库中的 10,000 多个三维结构代表。树模型和 CNN 的未见测试分别产生了 94% 和 93% 的 AUC(受试者工作特征曲线下面积)。基于 AlphaFold2 预测的结构,ML 模型以超过 90% 的召回率重现了 PDB 中新配位的半胱氨酸。为了协助共价药物发现社区,我们报告了 392 种人类激酶中预测的可配体半胱氨酸及其在序列比对激酶结构(包括 PH 和 SH2 结构域)中的位置。此外,我们还发布了可搜索的在线数据库 LigCys3D(https://ligcys.computchem.org/)和网络预测服务器 DeepCys(https://deepcys.computchem.org/),这两个数据库都将通过包含新发布的实验数据不断更新和改进。本研究代表了迈向由机器学习主导的大型基因组数据和结构模型集成的第一步,旨在为下一代共价药物发现注释人类蛋白质组空间。
通过T细胞受体(TCRS)对CD8 + T细胞对细胞内抗原的识别对于适应性免疫是至关重要的,可以针对感染和癌症产生反应。最近批准TCR基因编辑的T细胞用于癌症治疗,证明了使用PMHC识别消除癌症的治疗优势。但是,从患者材料中识别和选择TCR是复杂的,并且受使用的捐赠者的TCR库的影响。为了克服这些局限性,我们在这里提出了一个快速且坚固的DE NOVEN-DE DE平台,该平台利用了最新的生成模型,包括RfDiffusion,Proteinmpnn和Alphafold2,以靶向癌症相关PMHC Complex,NY-ESO-1(NY-ESO-1(157-165) /HLA-A-HALA-A*02.02.02.02通过将其纳入硅交叉铺设和分子动力学模拟中,我们增强了特异性筛选,以最大程度地减少脱靶相互作用。我们确定了一种MIBD,该MIBD对NY-ESO-1-衍生的肽Sllmwitqc具有很高的特异性,其中HLA-A*02:01和哺乳动物显示分析中的最小交叉反应性。我们通过将其整合到嵌合抗原受体中,进一步证明了该MIBD的治疗潜力,作为免疫介导的杀伤剂(Bikes)的从头粘合剂(自行车)。bike-与非转导的对照相比,有效地有效地杀死了NY-ESO-1 +黑色素瘤细胞的T细胞,证明了这种方法在精确癌症免疫疗法中的希望。我们的发现强调了生成蛋白设计在加速高特异性PMHC靶向疗法方面的变革潜力。除了使用CAR-T应用程序,我们的工作流程为开发MIBD作为多功能工具而建立了基础,预示了精确免疫疗法的新时代。
接触依赖性生长抑制 (CDI) 是一种由 CdiA 效应蛋白介导的广泛存在的细菌间竞争形式。CdiA 存在于抑制剂细胞表面,并在接触时将其有毒的 C 末端区域 (CdiA-CT) 传递到邻近的细菌中。抑制剂细胞还会产生 CdiI 免疫蛋白,这些蛋白可中和 CdiA-CT 毒素以防止自我抑制。在这里,我们描述了一组不同的 CDI 离子载体毒素,它们会消散目标细菌中的跨膜电位。这些 CdiA-CT 毒素由基于 AlphaFold2 建模的两个不同域组成。C 末端离子载体域都预测会形成能够跨越细胞膜的五螺旋束。N 末端“进入”域的结构各不相同,似乎劫持了不同的整合膜蛋白,以促进毒素组装到脂质双层中。大肠杆菌分离株部署的 CDI 离子载体根据其进入域结构分为六大类。比较序列分析鉴定出第 1 组和第 3 组(AcrB)、第 2 组(SecY)和第 4 组(YciB)的离子载体毒素受体蛋白。利用正向遗传学方法,我们鉴定出第 5 组和第 6 组离子载体的新受体。第 5 组利用由 puuP 和 plaP 编码的同源腐胺输入蛋白,第 6 组毒素识别由旁系同源 dtpA 和 dtpB 基因编码的二肽/三肽转运蛋白。最后,我们发现离子载体结构域表现出显著的组内序列变异,特别是在预测与 CdiI 相互作用的位置。因此,相应的免疫蛋白也具有高度多态性,通常与同一组的成员仅共享约 30% 的序列同一性。竞争实验证实,免疫蛋白对其同源离子载体具有特异性,无法抵御来自同一组的其他毒素。这种蛋白质相互作用网络的特异性为大肠杆菌分离株之间的自体/非自体识别提供了一种机制。
抗体是最大的生物治疗剂,预计到2025年的市场规模为3000亿美元(Lu等,2020)。它们用于治疗癌症,自身免疫性和感染性疾病(Lu等,2020; Weiner等,2010; Chan and Carter,2010),因为它们旨在识别高特异性较高的抗原和结合后的任何抗原。抗体发现。尽管建立了良好的成本,但由于实验挑战,这些方法仍然昂贵,耗时且容易失败。引入下一代测序(NGS)用于抗体筛选代替随机菌落拾取,使得能够覆盖更大的序列多样性,更宽的结合依次范围和靶向靶向独特表位的隔离序列(Spoendlin等,2023)。简短的读取测序仅限于单个链,即重(VH)和轻链(VL),而长读数可以获取这两个链的配对信息,从而增加了我们对链间残留依赖性的理解(Burbach和Briney,2024)。Recently, Arti fi cial Intelligence (AI) has experienced accelerated progress, particularly in the fi elds of Deep Learning (DL) and Natural Language Processing (NLP), and biology has been greatly bene fi ted from it ( Khakzad et al., 2023 ; Graves et al., 2020 ; Nam Kim et al., 2024 ; Bender and Cortés-Ciriano, 2021 ; Bender and Cortes-Ciriano,2021年; Kim等人,2023年)。嵌入为一个显着的例子是结构生物学的模型Alphafold2(Jumper等,2021),它带来了基于序列的蛋白质结构预测,接近实验精度。NLP中变压器体系结构(Vaswani等,2023)的成功导致了大型语言模型(LLM)的创建,对大量文本培训的统计模型,以捕获大量的文本相似性,以捕获矢量表现形式的语义相似性,以嵌入式嵌入,而无需依靠昂贵和昂贵的标签。
群集定期间隔短的短质体重复序列(CRISPR)相关蛋白(CAS)系统通过提供高精度和多功能性来彻底改变了基因组编辑。然而,大多数基因组编辑应用都依赖数量有限的良好特征的CAS9和CAS12变体,从而限制了更广泛的基因组工程应用的潜力。在这项研究中,我们广泛探索了CAS9和Cas12蛋白,并开发了Casgen,这是一种基于边缘的基于边缘的潜在空间正则化的新型深层生成模型,以增强新生成的Cas9和Cas12蛋白的质量。具体来说,卡斯根采用一种结合分类来过滤非CAS序列的策略,对潜在空间的贝叶斯优化来指导功能相关的设计,并使用基于Alphafold的分析进行彻底的结构验证,以确保稳健的蛋白质产生。我们从知名的生物数据库(例如InterPro和PDB)中收集了一个具有3,021 cas9、597 Cas12和597个非CAS蛋白序列的综合数据集。为了验证生成的蛋白质,我们使用BLAST工具进行了序列对齐,以确保新颖性并过滤到与现有CAS蛋白的高度相似序列。使用AlphaFold2和AlphaFold3的结构预测证实,生成的蛋白质与已知CAS9和CAS12变体具有很高的结构相似性,TM分数在0.70至0.85之间,并且root-Mean-square偏差(RMSD)值低于2.00。序列身份分析进一步表明,生成的CAS9直系同源物在已知变体中表现出28%至55%的身份,而CAS12A变体的身份高达48%。我们的结果表明,提出的CAS生成模型具有通过设计保留功能完整性的各种CAS蛋白来扩展基因组编辑工具包的重要潜力。开发的深层生成方法为合成生物学和治疗应用提供了有希望的途径,从而为开发了更精确,更通用的CAS基因组编辑工具的开发。
群集定期间隔短的短质体重复序列(CRISPR)相关蛋白(CAS)系统通过提供高精度和多功能性来彻底改变了基因组编辑。然而,大多数基因组编辑应用都依赖数量有限的良好特征的CAS9和CAS12变体,从而限制了更广泛的基因组工程应用的潜力。在这项研究中,我们广泛探索了CAS9和Cas12蛋白,并开发了Casgen,这是一种基于边缘的基于边缘的潜在空间正则化的新型深层生成模型,以增强新生成的Cas9和Cas12蛋白的质量。具体来说,卡斯根采用一种结合分类来过滤非CAS序列的策略,对潜在空间的贝叶斯优化来指导功能相关的设计,并使用基于Alphafold的分析进行彻底的结构验证,以确保稳健的蛋白质产生。我们从知名的生物数据库(例如InterPro和PDB)中收集了一个具有3,021 cas9、597 Cas12和597个非CAS蛋白序列的综合数据集。为了验证生成的蛋白质,我们使用BLAST工具进行了序列对齐,以确保新颖性并过滤到与现有CAS蛋白的高度相似序列。使用AlphaFold2和AlphaFold3的结构预测证实,生成的蛋白质与已知CAS9和CAS12变体具有很高的结构相似性,TM分数在0.70至0.85之间,并且root-Mean-square偏差(RMSD)值低于2.00。序列身份分析进一步表明,生成的CAS9直系同源物在已知变体中表现出28%至55%的身份,而CAS12A变体的身份高达48%。我们的结果表明,提出的CAS生成模型具有通过设计保留功能完整性的各种CAS蛋白来扩展基因组编辑工具包的重要潜力。开发的深层生成方法为合成生物学和治疗应用提供了有希望的途径,从而为开发了更精确,更通用的CAS基因组编辑工具的开发。
通过计算工具从参考数据库中检索进化相关的序列(HO-MOLOGS)已经实现了许多生物学的进步(1-4)。在基于序列的蛋白质同源性范式上构建这些工具(5,6),通过搜索类似的氨基酸性序列来检测数百万到数十亿参考条目中输入查询的同源物。在数十年中,同源性搜索对于推断蛋白质特性至关重要(7-9),例如二级结构预测(10),检测蛋白质残基对之间的直接耦合(11)和第三纪结构预测,长期以来对生物学的巨大挑战(12)。特定的远程同源物已被证明是对当代深度学习方法(如Alphafold2等)(13 - 15)(13-15)的输入,以预测准确的结构(16-18)。要检索远程同源物,需要在数据库中查询和参考序列之间检测对成对的相似性的敏感工具。从理论上讲,可以通过应用基于动态编程的,间隙的史密斯 - 水手-GotoH算法(19,20)来找到高灵敏度,以在每个查询参考对准时找到最佳路径(对准)(21)。但是,参考序列数据库的不断增长的大小(17)使这种详尽的方法不切实际。结果,基于启发式的方法,例如BLAST(1),PSI-BLAST(22),MMSEQS2(4)和DIAMOND(3),在执行计算价格昂贵的间隙计算之前,融合了预滤波技术,以修剪大多数不同的序列。这通常是通过采用种子和扩展策略来完成的,其中简短的k-mer单词(“种子”)被索引和匹配,然后将其扩展到间隙比对。敏感的对准器(2)和hhblits(23)都采用了简化的动态编程方法,该方法在序列对之间的对齐矩阵的所有无间隙路径(严格的对角线)中得分,以找到最高得分的未射程匹配。与基于k的方法不同,是较低的比对的较低结合的近似值,无间隙对准会导致所有对以计算效率为代价的分数。探索了几种方法以达到更高的执行速度,无论启发式如何,例如中央处理单元
