缩放定律表明,超过一万亿种居住在我们的星球上,但迄今为止仅研究或测序了一个微小和非代表性的分数(少于0.00001%)。深度学习模型,包括应用于生命科学任务的模型,取决于培训或参考数据集的质量和大小。鉴于我们在地球上生活时遇到的较大知识差距,我们提出了一种以数据为中心的方法来改善生物学中的深度学习模型:我们与自然公园和生物多样性利益相关者建立了伙伴关系,覆盖了50%的全球生物群落,建立了一个全球的宏观元素学和生物数据供应链。与现有公共数据相比,该数据集中捕获的蛋白质序列多样性具有较高的蛋白质序列多样性,我们将此数据优势应用于蛋白质折叠问题,通过补充Al-Phafold2的推断。我们的模型(基本折叠)超过了CASP15和CAMAO的目标的传统Alphafold2性能,其中60%显示PLDDT分数提高,RMSD值降低了80%。最重要的是,预测结构的提高质量可以产生赌注对接结果。通过与利益相关者分享利益,该数据源于我们提出的一种方法,可以同时改善生物学的深度学习模型,并激励对我们星球的生物多样性的保护。
表1-用IPTM分数作为预测变量获得的AUC值和不同的AlphaFold2选项。AUC值之间的差异在不同的MSA配对和回收模式(在最后一行中)或由不同网络生成的模型(在每个列中)获得的最佳模型之间的差异在统计学上没有统计学意义。
单胺转运蛋白包括5-羟色胺,多巴胺和去甲肾上腺素的转运蛋白在单胺能突触信号中起关键作用,涉及多种神经系统和生理疾病的分子病因。尽管是至关重要的药物焦油,但由于跨膜蛋白在细胞膜中的定位,对跨膜蛋白的研究仍然具有挑战性。为了解决这个问题,我们介绍了使用QTY代码设计的7种单胺转运蛋白及其水溶性变体的结构生物信息学研究,该研究是通过系统地代替疏水性氨基酸(L),Valine(v),Isolealucine(Isolecomine(I)和苯基丙氨酸(I)(f)(f)(f)(f)(f)(f)(f)(f)(f)(f)(f)(f)(f)(f)) Tyro-sine(y)尽管有明显的蛋白质跨膜序列差异(44.27%-51.85%),但所产生的数量变体显示出相似的等电点(PI)和分子量。虽然它们的疏水表面大大降低,但这种变化导致结构改变最小。定量,AlphaFold2预测的QTY变体结构与RMSD0.492Å-1.619Å的相似性显着相似。伴随着取代氨基酸的结构相似性,我们的研究揭示了基因组数据库中的多个数量和反向的数量变化。我们进一步分析了它们的表型和拓扑特征。通过将进化游戏理论扩展到生物学的分子基础,我们提供了对化学不同α-螺旋的进化动力学的见解,它们在不同的化学治疗应用中的用途以及诊断医学的开放可能性。我们的研究合理化的是,单胺转运蛋白的数量变体不仅可能成为医学,结构和探索研究的独特工具,而且这些转运蛋白也可能是当代治疗靶标,为多种疾病提供了一种新的治疗方法。
谷氨酸转运蛋白通过调节兴奋性神经发射器水平(涉及多种神经系统和生理疾病)时,通过调节兴奋性神经发射器水平来在神经生理中起关键作用。然而,由于它们在细胞内脑中的定位,包括谷氨酸转运蛋白在内的整合跨膜蛋白仍然难以研究。在这里,我们介绍了通过QTY代码产生的谷氨酸转运蛋白及其水溶性变体的结构生物信息学研究,这是一种基于系统氨基酸取代的蛋白质设计策略。这些包括由X射线晶体学,Cryo-EM确定的2种结构,以及6个由Alphafold2预测的结构及其预测的水溶性数量变体。在谷氨酸转运蛋白的天然结构中,跨膜螺旋含有疏水氨基酸,例如亮氨酸(L),异亮氨酸(I)和苯丙氨酸(F)。为设计水溶性变种,这些疏水性氨基酸被系统地取代了亲水性氨基酸,即谷氨酰胺(Q),苏氨酸(T)和酪氨酸(Y)。数量变体表现出水溶性,其中四个具有相同的等电聚焦点(PI),而其他四个具有非常相似的PI。我们介绍天然谷氨酸转运蛋白及其水溶性数量变体的超塑结构。尽管有明显的蛋白质跨膜序列差异(41.1% - > 53.8%),但与RMSD0.528Å-2.456Å相似,表现出与RMSD0.528Å-2.456Å的显着相似性。此外,我们研究了天然谷氨酸转运蛋白及其QTY变体之间疏水性斑块的差异。经过仔细检查,我们发现了这些转运蛋白中的L-> Q,i-> q,i-> t,i-> t,f-> y和q-> l,t-> i,y-> f的多种自然变化。其中一些自然变异是良性的,其余的是在特定的神经系统疾病中报告的。我们进一步研究了疏水性在谷氨酸转运蛋白中疏水性取代的特征,利用了变体分析和进化分析。我们的结构生物信息学研究不仅提供了疏水螺旋之间差异的见解
。cc-by 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他已授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权所有,该版本于2024年3月13日发布。 https://doi.org/10.1101/2024.03.11.584480 doi:Biorxiv Preprint
当 Demis Hassabis 和 John Jumper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后,他们预测了研究人员在绘制地球生物图谱时发现的几乎所有 2 亿种蛋白质的结构。Google DeepMind 还将 AlphaFold2 的代码公开,任何人都可以访问它。这个人工智能模型已经成为研究人员的金矿。到 2024 年 10 月,来自 190 个国家的 200 多万人使用了 AlphaFold2。以前,获得蛋白质结构通常需要数年时间,甚至可能根本无法获得。现在只需几分钟即可完成。这个人工智能模型并不完美,但它可以估计它所生成的结构的正确性,因此研究人员知道预测的可靠性。图 5 显示了 AlphaFold2 如何帮助研究人员的众多示例中的几个。
当 Demis Hassabis 和 John Jumper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后他们预测了研究人员在绘制地球生物图谱时迄今为止发现的几乎所有 2 亿种蛋白质的结构。Google DeepMind 还将 AlphaFold2 的代码公开,任何人都可以访问它。这个人工智能模型已经成为研究人员的金矿。到 2024 年 10 月,来自 190 个国家的 200 多万人使用了 AlphaFold2。以前,获得蛋白质结构通常需要数年时间,甚至可能根本无法获得。现在只需几分钟即可完成。这个人工智能模型并不完美,但它可以估计它所产生的结构的正确性,因此研究人员知道预测的可靠性。图 5 展示了 AlphaFold2 如何帮助研究人员的众多示例中的几个。
当 Demis Hassabis 和 John Jumper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后他们预测了研究人员在绘制地球生物图谱时迄今为止发现的几乎所有 2 亿种蛋白质的结构。Google DeepMind 还将 AlphaFold2 的代码公开,任何人都可以访问它。这个人工智能模型已经成为研究人员的金矿。到 2024 年 10 月,来自 190 个国家的 200 多万人使用了 AlphaFold2。以前,获得蛋白质结构通常需要数年时间,甚至可能根本无法获得。现在只需几分钟即可完成。这个人工智能模型并不完美,但它可以估计它所产生的结构的正确性,因此研究人员知道预测的可靠性。图 5 展示了 AlphaFold2 如何帮助研究人员的众多示例中的几个。
摘要:AI驱动技术的最新进展,尤其是在蛋白质结构预测中,正在显着重塑药物发现和发育的景观。本综述着眼于以下问题:这些技术突破是如何用Alphafold2示例的,正在彻底改变我们对蛋白质结构和功能发生变化的理解,并改善我们对抗它们的方法。通过提高确定药物靶标的精度和速度并可以设计和优化药物候选者,这些技术正在简化整个药物开发过程。我们探讨了alphafold2在癌症药物开发中的使用,审查其疗效,局限性和潜在的挑战。我们还将alphafold2与其他算法(如ESMFold)进行了比较,解释了该领域中采用的多种方法以及这些差异在应用特定算法中的实际效果。此外,我们讨论了这些技术的更广泛应用,包括蛋白质复合物结构的预测以及新型蛋白质的生成AI驱动设计。
详细了解蛋白质的三维 (3D) 结构对于了解其功能、评估人类致病突变的影响以及帮助合理设计新药至关重要。最近,机器学习程序 AlphaFold2 被证明能够仅从蛋白质序列预测这种 3D 信息,准确度接近实验水平。现在,卡罗琳斯卡医学院生物科学与营养系的 Luca Jovine 教授报告说,AlphaFold2 还可以应用于研究在蛋白质合成后改变其形状的分子事件,从而调节其与其他分子的相互作用。
