DeepMind 团队于2020 年12 月发布的一种人工智能蛋白质结构预测算法AlphaFold2,被 认为具有人工智能领域里程碑性意义,解决了生物学界长达50 年的蛋白质空间结构预测 难题,改变了此前几乎只能使用X 射线晶体学和冷冻电子显微镜等实验技术确定蛋白质结 构的现状。它的原理基于最先进的深度学习算法以及进化中蛋白质结构的守恒。它使用了 大量的蛋白质序列和结构数据进行训练(如MGnify 和UniRef90 数据库、 BFD 数据库), 并 使用了一个新的深度神经网络构架,该网络被训练为通过利用同源蛋白质和多序列比 对的信息从氨基酸序列生成蛋白质结构。 DeepMind 公司与欧洲生物信息研究所(EMBL-EBI) 的合作团队已经使用AlphaFold2 成功预测出超过100 万个物种的2.14 亿个蛋白质结构, 几乎涵盖了地球上所有已知蛋白质。这一成果标志着AlphaFold2 在结构生物学领域的突 破,因为这些预测结果中有大约35%的结构具有高精度,达到了实验手段获取的结构精度, 而大约80%的结构可靠性足以用于多项后续分析。这将有助于深入理解蛋白质的结构和功 能,为生命科学领域的研究提供更多的线索和解决方案。 AlphaFold2 应用范围广泛,未来 可能被应用于结构生物学、药物发现、蛋白质设计、靶点预测、蛋白质功能预测、蛋白质 -蛋白质相互作用、生物学作用机制等。
AlphaFold系列以明显的精度(通常与实验方法匹配)转化了蛋白质结构的预测。alphafold2,Alphafold-Multimer和最新的AlphaFold3在预测单蛋白链,蛋白质复合物和生物分子结构方面取得了显着的进步。虽然Alphafold2和Alphafold-Multimer是开源的,可以促进快速可靠的预测,但Alphafold3仍然可以通过有限的在线服务器部分访问,并且尚未开源,从而限制了进一步的开发。为了应对这些挑战,PaddleHelix团队正在开发HelixFold3,旨在复制Alphafold3的功能。利用先前模型和广泛数据集的见解,HelixFold3在预测常规配体,核酸和蛋白质的结构方面达到了与Alphafold3相当的精度。HelixFold3的最初发布可作为GitHub的开源供学术研究,有望推进生物分子研究并加速发现。最新版本将在HelixFold3 Web服务器上不断更新,从而提供交互式可视化和API访问。
高级人工智能技术的出现在蛋白质结构预测方面取得了显着加速。alphafold2是该领域中的开创性方法,它通过利用Evoformer模块从multiple序列比对(MSA)自动提取共进化信息,为预测准确性设定了新的基准测试。但是,诸如Alphafold2之类的结构预测方法的疗效在很大程度上取决于MSA的深度和质量。为了解决这一局限性,我们提出了两个新型模型Aido.ragplm和aido.ragfold,它们是A-e-e-dected蛋白质语言模型和AI-Drigity数字有机体中的概述的模块[1]。aido.ragplm将预训练的蛋白质模型与检索的MSA整合在一起,从而使共同进化信息纳入结构前字典,同时通过大规模预处理补偿了MSA信息不足。我们的方法在困惑,接触预测和适应性预测中超过了单序蛋白语言模型。我们利用aido.ragplm作为蛋白质结构预测的特征提取器,导致aido.ragfold的发展。当有足够的MSA提供时,Aido.Ragfold就可以达到与Alphafold2相当的TM分数,并且最多运行速度长达八倍。在MSA不足的情况下,我们的方法显着优于Al-PhaFold2(∆ TM得分= 0.379、0.116和0.116和0.059,对于0、5和10 MSA序列作为输入)。我们的发现表明aido.ragplm为蛋白质结构预测提供了有效,准确的解决方案。此外,我们使用层次ID生成开发了一种从Uniclust30数据库搜索的MSA检索器,该数据库比传统方法快45至90倍,并用于扩展aido.ragplm的MSA培训集,增长32%。
AI社区专注于蛋白质。自Alphafold2 Jumper等人出版以来。(2021)在2021年,人们对AI驱动的蛋白研究引起了巨大的兴趣。这一突破对结构生物学,药物发现和生物技术产生了深远的影响,从而为蛋白质设计和工程提供了新的生物学见解和高级AI工具。同样,机器学习会议已经看到了用于结构生物学和药物设计的论文激增,但大多数工作都集中在蛋白质和小分子上。尽管Alphafold2的成功也引起了人们对核酸研究的核酸(RNA和DNA)的关注,但仍有尚待探索核酸研究的AI机会。在这个研讨会上,我们的目标是将聚光灯转移到核酸,希望在机器学习与核酸研究的交集中引发协作和创新。研讨会将讨论与蛋白质相比,促进现实世界应用以及AI研究对诊断,治疗和生物技术的影响的独特挑战。
图1。进化多目标优化为多层设计提供了合适的框架。在这项工作中,我们研究了如何通过多物镜优化方法将机器学习模型(例如PMPNN,AlphaFold2/af2rank和ESM-1V)直接集成到蛋白质序列设计中,称为非主体分类遗传算法II(NSGA-II)。左:首先,通过突变操作员提出了新的设计候选。在这里,该操作员由ESM-1V组成,ESM-1V用于对残基位置进行排列,以及用于重新设计最小Nativelike-NativelikeTose的ProteinMPNN(PMPNN)。中间:然后使用源自AlphaFold2和PMPNN置信度指标的目标函数对设计候选者进行评分。右:最后,得分的候选人被分类为连续的帕累托阵线(这里编号为F1至F5),NSGA-II从最佳战线中选择了最佳战线的候选人。为了证明该框架的有效性,我们对RFAH的多层设计问题进行了深入的分析,RFAH是一种小的折叠式蛋白质,其C末端结构域可以在全-αRFAHα状态和全βrfahβ状态之间互连。在中间面板的两个RFAH状态的卡通表示中,以绿色表示可设计的位置(残基119至154);请注意,N端结构域在RFAHβ态的带状表示中未显示(请参见方法)。
蛋白质结构的确定通常是朝着其功能阐明其功能发展的第一步。近年来已经在计算蛋白结构预测方面取得了很大进步,Alphafold2(AF2)作为研究人员用于此目的使用的主要工具。虽然AF2通常可以预测折叠蛋白的准确结构,但我们在这里介绍了AF2错误地以高度置信度错误地预测小型,折叠和紧凑的蛋白质的结构。这种蛋白质,pro-Interleukin-18(pro-il-18)是细胞因子IL-18的前体。有趣的是,AF2预测的Pro-IL-18的结构与成熟的细胞因子的结构相匹配,而与蛋白质蛋白产生形式的相应实验确定的结构相匹配。因此,虽然计算结构预测对解决蛋白质生物物理学问题的巨大希望仍然需要实验结构的确定,即使在小折叠的小球蛋白的背景下也是如此。
摘要:特异性抗体对于蛋白质复合物的细胞和组织表达、生化和功能分析必不可少。然而,制备特异性抗体通常费时费力。将内源性蛋白质的表位标记在适当的位置可以克服这个问题。在这里,我们使用 AlphaFold2 蛋白质结构预测研究了表位标签位置,并结合 CRISPR-Cas9 基因组编辑和电穿孔 (i-GONAD) 开发了 Flag/DYKDDDDK 标签敲入 CaMKII α 和 CaMKII β 小鼠。使用 i-GONAD,可以将长达 200 bp 的小片段插入目标基因的基因组中,从而实现高效便捷的小表位标记。使用市售的抗 Flag 抗体进行实验,可以通过蛋白质印迹、免疫沉淀和免疫组织化学轻松检测内源性 CaMKII α 和 β 蛋白。我们的数据表明,通过 i-GONAD 生成 Flag/DYKDDDDK 标签敲入小鼠是一种有用且方便的选择,特别是在没有特定抗体的情况下。
多发性骨髓瘤(MM)是一种普遍的浆细胞恶性肿瘤,代表了一种威胁生命的血液学疾病,具有明显的临床发病率。尽管对全球健康负担有了公认的影响,但确切的分子发病机理仍未完全阐明。通过RNA测序进行的转录组分析表明,多发性骨髓瘤中细胞周期蛋白依赖性激酶调节亚基2(CKS2)的显着上调。通过对患者衍生标本中CKS2表达的定量分析进行临床验证。选择了两个已建立的MM细胞模型(MM.1S和RPMI-8226)进行功能表征。使用CCK-8代谢分析和EDU DNA掺入分析对细胞增殖动力学进行了定量,并使用流式细胞仪评估来评估凋亡指数。建立了一种异种移植小鼠模型,以研究CKS2介导的体内肿瘤发生,并通过途径相关蛋白表达的蛋白质印迹分析补充。对人基碱数据库的生物信息学询问确定了推定的CKS2相互作用,随后通过共免疫沉淀测定法和共焦免疫荧光显微镜进行了验证。通过AlphaFold2通过AlphaFold2预测的分子相互作用界面的结构建模,通过Pymol渲染实现了三维可视化。在这项研究中,我们证明了MM.1和RPMI-8226细胞系中的CKS2敲低可显着抑制细胞增殖和诱导的凋亡。机械研究表明,CKS2耗尽通过PTEN/AKT/MTOR信号轴调节细胞的增殖和凋亡。相反,CKS2过表达增强了恶性增殖,同时抑制了凋亡过程,并在骨髓瘤发病机理中确立了其功能作用。值得注意的是,共免疫沉淀测定法证明了CKS2和硫氧还蛋白(TXN)之间的直接蛋白质 - 蛋白质相互作用,随后的功能验证表明TXN似乎充当了CKS2稳定性的关键上游调节因子。这些发现将CKS2建立为骨髓瘤细胞稳态的关键调节剂,并将其确定为有前途的治疗靶标,需要进一步的临床前验证。
另一方面,生物学仍然主要使用传统工具。BLAST 和隐马尔可夫模型在搜索大型蛋白质序列数据库方面有着悠久的使用历史,这些数据库通过残基重叠和基于比对的特征进行评分。基于结构的方法,例如 DALI ( Holm ,2020 ) 和 TM-align ( Zhang & Skolnick ,2005 ) 长期以来一直具有更高的灵敏度来查找远程同源物,但由于其速度和可用蛋白质结构的数量而难以获得更广泛的采用。随着 AlphaFold2 ( Jumper et al. ,2021 ) 等精确蛋白质结构预测方法的出现,使用以前的工具搜索同源结构已变得几乎站不住脚。基于深度学习的方法,例如 Foldseek(van Kempen 等人,2023 年)、TM-vec(Hamamsy 等人,2022 年)、SMAMPNN(Trinquier 等人,2022 年)、Progres(Greener & Jamali,2022 年)一直试图弥补这一差距,但尚无法与 DALI 的灵敏度或序列搜索的速度相媲美(Steinegger & S¨oding,2017 年)。
摘要:映射有助于功能的蛋白质构象的整体,可以用小分子药物来靶向,这仍然是一个重大的挑战。在这里,我们探讨了变异自动编码器的使用来减少蛋白质结构合奏生成问题中维度的挑战。我们将高维蛋白质结构数据转换为连续的,低维的表示,在以结构质量度量为导向的空间中进行搜索,然后使用由采样的结构信息引导的Rosettafold来生成3D结构。我们使用这种方法为癌症相关的蛋白质K-RAS生成合奏,在可用的K-Ras晶体结构的子集上训练VAE和MD模拟快照,并评估接近与训练中与晶体结构接近的取样程度。我们发现,我们的潜在空间采样程序迅速生成具有高结构质量的合奏,并且能够在固定晶体结构的1Å内进行采样,其一致性高于MD模拟或Alphafold2预测。采样结构充分概括了固定的K-RAS结构中的隐性口袋,以允许小分子对接。
