AlphaFold 展示了人工智能在动态和高度复杂系统中检测模式和相关性以及在广阔的组合空间中识别最佳解决方案的潜力。在过去的两年里,该数据库促进了一系列领域的突破。开发疟疾疫苗的研究团队已经能够识别使疾病媒介得以繁衍的特定蛋白质的结构。2020 年,研究人员确定了 SARS-CoV-2 病毒中几种关键蛋白质的结构预测,研究人员继续使用 AlphaFold 研究可以中和 SARS-CoV-2 及其相关变体的抗体。AlphaFold 数据库提供了快速推动和传播可持续性、酶设计、抗菌素耐药性、药物开发和细胞生物学领域重大进展的机会。
今天,自然科学中使用的AI正在以前所未有的速度加速发现。 例如,在结构生物学中,X射线晶体学是关于蛋白质结构的最快途径。 单个实验可能需要多年的工作,而耗资100,000美元,具体取决于蛋白质。 现在,Google DeepMind的Alphafold预测了蛋白质的3D结构,已导致了一个公开可用的蛋白质结构数据库,该数据库可免费访问2亿个预测的蛋白质结构。 此数据库可公开供您使用,并已收到来自190多个国家 /地区的250万用户。 基于alphafold的字母敏感,预测了错义变体的致病性 - DNA中的单个字母替代,在癌症等疾病等疾病的挽救诊断和挽救生命治疗的发展。 此外,AI正在改变材料科学,正如Google Deepmind's Gnome所证明的那样,该侏儒已经发现了数百万个新的水晶结构,并加速了电池和半导体技术等领域的进步。 GNOME成功地发现了220万个新晶体 - 等同于经典研究技术的近800年知识。 想象一下,在未来几年中,诸如Alphafold,Alphamissense和Gnome等更科学的发现工具及其对加速进步的影响。今天,自然科学中使用的AI正在以前所未有的速度加速发现。例如,在结构生物学中,X射线晶体学是关于蛋白质结构的最快途径。单个实验可能需要多年的工作,而耗资100,000美元,具体取决于蛋白质。现在,Google DeepMind的Alphafold预测了蛋白质的3D结构,已导致了一个公开可用的蛋白质结构数据库,该数据库可免费访问2亿个预测的蛋白质结构。此数据库可公开供您使用,并已收到来自190多个国家 /地区的250万用户。基于alphafold的字母敏感,预测了错义变体的致病性 - DNA中的单个字母替代,在癌症等疾病等疾病的挽救诊断和挽救生命治疗的发展。此外,AI正在改变材料科学,正如Google Deepmind's Gnome所证明的那样,该侏儒已经发现了数百万个新的水晶结构,并加速了电池和半导体技术等领域的进步。GNOME成功地发现了220万个新晶体 - 等同于经典研究技术的近800年知识。想象一下,在未来几年中,诸如Alphafold,Alphamissense和Gnome等更科学的发现工具及其对加速进步的影响。
4 OpenAI。(2023)。GPT-4。https://openai.com/research/gpt-4 5 DeepMind。(2021)。AlphaFold。https://www.deepmind.com/research/highlighted-research/alphafold 6 Google Research,Brain Team。(2022)。Imagen。https://imagen.research.google/ 7 Whittlestone, J., & Clark, J.(2021)。政府为何以及如何监控人工智能发展。arXiv。https://arxiv.org/abs/2108.12427 8 美国国家标准与技术研究所。向国会提交 2020、2021、2022、2023 和 2024 财年的预算。请注意,在某些年份,与 AI 相关的计划会与其他计划相结合,因此人员和资金请求是近似值。9 美国国家标准与技术研究所。(2023)。向国会提交 2024 财年预算。https://www.commerce.gov/sites/default/files/2023-03/NIST-NTIS-FY2024-Congressional-Budget-Submission.pdf 10 美国国家标准与技术研究所。(2020)。2021 财年预算提交给国会。https://www.commerce.gov/sites/default/files/2020-02/fy2021_nist_ntis_congressional_budget_justification.pdf
蛋白质是所有细胞过程的关键,其结构对于理解其功能和进化很重要。基于蛋白质结构的基于序列的预测在精度1中增加了,超过214)在Alphafold数据库2中可用预测结构。但是,在此规模上研究蛋白质结构需要高度焦虑的方法。在这里,我们开发了一个基于结构对齐的聚类算法4foldseek cluster4that可以群集数亿个结构。使用此方法,我们聚集了Alphafold数据库中的所有结构,识别2.30)百万个非辛氏结构簇,其中31%缺乏代表可能先前未描述过结构的注释。没有注释的群集往往很少有代表覆盖Alphafold数据库中所有蛋白质的4%。进化分析表明,大多数簇的起源都是古老的,但似乎有4%是物种,代表了较低的质量预测或从头基因出生的示例。我们还展示了如何使用结构比较来预测领域家庭及其关系,从而确定了远程结构相似性的示例。在这些分析的基础上,我们确定了与原核生物中假定的远程同源性人类免疫相关蛋白质的几个例子,这说明了该资源对研究蛋白质功能和生命树的进化的价值。
在过去的十年中,机器学习的前景(ML)在CERN的大型强子集合体中采用了基于ML的基于ML的方法,用于对粒子碰撞事件的重要性(Duarte等,2018)和DeepMind进行排序(Duarte et al。氨基酸序列数据的第四纪蛋白结构有效地解决了生物学最复杂和持久的开放问题之一。在公共生活的所有领域,尤其是科学领域的学习吸收的速度和无处不在,引发了人们对其性质及其广泛使用的下游后果的猜测。从文化评论员,记者和媒体人物发出了这种猜测,这些研究人员和工程师生产了ML的工具以及在学术和流行场所中部署它们以及哲学家的科学家的工具。的回答着重于ML的认知状况及其对科学的预测影响,已经回应了机器学习的效果,即机器学习与普遍的建模,统计或科学疾病截然不同,这些陈述预计被预计以改变科学发现或科学企业的认知果实的性质的方式,这些陈述被预计。
准确预测硅中的药物目标亲和力(DTA)对于现代药物发现至关重要。在药物开发的早期阶段应用的DTA预测的计算方法,能够大大降低其成本。最近提出了基于机器学习的广泛方法进行DTA评估。它们最有前途的是基于深度学习技术和图形神经网络来编码分子结构。Alphafold做出的蛋白质结构预测的最新突破使得无前前数量的蛋白质,而没有实验定义的结构可用于计算DTA预测。在这项工作中,我们提出了一种新的深度学习DTA模型3DPROTDTA,该模型与蛋白质的图表结合使用了Alphafold结构预测。该模型优于其在通用基准数据集上的竞争对手,并且具有进一步改进的潜力。
贡献分析主要由 HP、YP 和 HS 进行具体来说,AlphaFold 分析由 HP 领导,基因分析由 YP 进行,结构和功能分析由 HS 进行该研究由 HS 构思,所有作者都参与了手稿的撰写。
•分子表示,描述符和指纹•深度学习蛋白质结构预测(例如alphafold),结合亲和力预测和虚拟筛选•定量结构活动关系(QSAR)•基于ML的ADMET预测•用于机器学习基准测试的化学数据集•用于DE NOVO DRAUG DEVING的生成模型
摘要:近年来已经确定了超过930,000个蛋白质蛋白质相互作用(PPI),1个,但它们的理化特性与常规药物靶标有所不同,这使使用2种常规小分子作为模态复杂化。环状肽是靶向3种蛋白质蛋白相互作用(PPI)的一种有希望的方式,但是很难预测靶蛋白4环状肽复合物的结构或设计使用5个计算方法与靶蛋白结合的环状肽序列。最近,具有环状偏移的Alphafold已启用了预测环状肽的结构6,从而实现了从头环状肽设计。我们开发了一个环状肽7复合物的偏移,以实现靶蛋白和环状肽络合物的结构预测,而8种具有环状肽络合物复合物偏移量的Alphafold2可以高精度预测结构。我们9还将环状肽复合物的偏移量应用于Afdesign的粘合剂幻觉方案,即使用Alphafold的10新蛋白设计方法,我们可以设计高预测的局部距离11差异测试和比天然MDM2/P53 12结构的单位界面区域的分离差异11差异测试和较低的分离结合能。此外,该方法被应用于其他12种蛋白质肽复合物和13个蛋白质蛋白质复合物。我们的方法表明,可以设计针对PPI的假定环状肽14个序列。15