AlphaFold系列以明显的精度(通常与实验方法匹配)转化了蛋白质结构的预测。alphafold2,Alphafold-Multimer和最新的AlphaFold3在预测单蛋白链,蛋白质复合物和生物分子结构方面取得了显着的进步。虽然Alphafold2和Alphafold-Multimer是开源的,可以促进快速可靠的预测,但Alphafold3仍然可以通过有限的在线服务器部分访问,并且尚未开源,从而限制了进一步的开发。为了应对这些挑战,PaddleHelix团队正在开发HelixFold3,旨在复制Alphafold3的功能。利用先前模型和广泛数据集的见解,HelixFold3在预测常规配体,核酸和蛋白质的结构方面达到了与Alphafold3相当的精度。HelixFold3的最初发布可作为GitHub的开源供学术研究,有望推进生物分子研究并加速发现。最新版本将在HelixFold3 Web服务器上不断更新,从而提供交互式可视化和API访问。
我们生活在研究的“黄金时代”中,我们见证研究与现实世界影响之间的“魔术周期”如何缩短和扩大范围的范围,以及AI在健康方面的影响如何以加速的速度从理论转变为现实。多年来,我们在Google Research和Google DeepMind的团队一直在解决健康方面的一些最大挑战,从疾病检测到赋予临床医生的能力,以使诊断更加精确和易于访问。自2016年以来,Google Research就在2024年就发表了250篇有关AI健康的AI论文,其中有40多篇论文。Google DeepMind的进步,从Alphafold对蛋白质折叠和生成AI的尖端工作的革命性影响正在加速跨健康和科学的影响力。在一起,这些努力为从预防性健康到罕见疾病治疗的所有事物提供了更有效的解决方案的基础。
生成人工智能 (GenAI) 的概念在公共领域无处不在,但很少有准确的定义。我们阐明了通常与 GenAI 相关的讨论的主要概念,并认为应该区分技术话语和公共话语。为了展示其复杂的发展和相关的概念模糊性,我们对 GenAI 进行了历史系统重建,并明确讨论了两个典型案例:大型语言模型 BERT 的生成状态以及 AlphaFold 2 和 3 的蛋白质结构预测之间的差异。我们的分析表明,基于纯技术术语的 GenAI 没有唯一且明确的定义。根据这一结论,我们认为公共话语不仅仅是一种不太复杂的说话方式,而且超越了其技术基础。为了构建这一新兴讨论格局,我们引入了 GenAI 四个核心方面的非详尽列表:(多)模态性、交互性、灵活性和生产力。这些维度构成了超越技术基础定义 GenAI 的第一步。
然而,确定 RNA 结构已被认为是一项巨大的挑战,甚至被认为比蛋白质结构预测更困难 [26]。原因很简单,因为 RNA 分子的灵活性。蛋白质分子每个残基上有三个扭转角,产生的多样性足以使结构预测变得困难,而 RNA 分子每个核苷酸上都有七个扭转角 [18]。因此,RNA 分子在允许的三级结构方面具有组合爆炸式增长。由于构象样本空间很大,旨在随机抽样并选择自由能最低的分子的传统蒙特卡罗方法往往无法在合理的时间内收敛。为了解决这个问题,部分由于最近使用 AlphaFold [13] 在蛋白质结构预测方面取得的成功,人们提出了基于深度学习的方法 [19,23]。这些方法在结构预测方面表现出良好的效果。利用 DiffRNAfold,我们提出了一个框架,将 RNA 结构生成和设计向前迈进了一步。
如果您希望加入此出版物的邮件列表,请通知 Natasha Yeung (yeungn@stifel.com)。近期发行:2024 年 5 月 27 日(IBD)2024 年 5 月 20 日(资本回报)2024 年 5 月 13 日(大脑、AlphaFold 3)2024 年 5 月 6 日(收益、肥胖)2024 年 4 月 29 日(并购、日本)2024 年 4 月 22 日(制药定价)2024 年 4 月 15 日(制药行业的人工智能)2024 年 4 月 8 日(买方)2024 年 4 月 1 日(生物技术资产负债表)2024 年 3 月 25 日(女性健康)2024 年 3 月 18 日(炎症小体)2024 年 3 月 11 日(IRA、免疫学)2024 年 3 月 4 日(生物技术就业)2024 年 2 月 26 日(生物技术战略)2024 年 2 月 19 日(大药、自身抗体) 2024 年 2 月 12 日 (纤维化、子宫内膜异位症) 2024 年 2 月 5 日 (女性重症疾病) 2024 年 1 月 29 日 (制药研发生产力) 2024 年 1 月 22 日 (医学人工智能) 2024 年 1 月 15 日 (FDA 局长优先事项)
1 “人工智能对英国经济的经济影响”,普华永道,2017 年 6 月;https://www.pwc.co.uk/economic-services/assets/ai-uk-report-v2.pdf 2 “AlphaFold:解决生物学 50 年大挑战的解决方案”,DeepMind,2020 年 11 月;https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology 3 “为什么人工智能是可再生能源电网弹性的关键”,世界经济论坛,2021 年 3 月;https://www.weforum.org/agenda/2021/03/artificial-intelligence-is-key-to-grid-resilience/ 4 “人工智能在解决社交媒体平台上的错误信息中的作用”,数据伦理与创新中心,2021 年 8 月; https://www.gov.uk/government/publications/the-role-of-ai-in-addressing-misinformation-on-social-media-platforms 5 “CDEI 2021 商业创新调查探索性分析”,数据伦理与创新中心,即将出版 6 “数据生态系统信任的经济影响——为 ODI 准备的报告”,Frontier Economics,2021 年 2 月;https://theodi.org/article/the-economic-impact-of-trust-in-data-ecosystems-frontier-economics-for-the-odi-report/ 7 “国家人工智能战略”,人工智能办公室 (OAI),2021 年 9 月;https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version
通过使用MEGA6.0的系统发育树来构建序列的分类。通过使用诸如AutoDock的galaxysagittarius,SwisStargetPrdiction,SwisStargetPrdiction以及相关的分子对接模拟,分为蛋白质与特定代谢物/生物活性分子之间的相互作用和研究。蛋白质相互作用预测 - 通过使用Web服务器(HADDOCK,LZERD,ROSETTADOCK)的蛋白质。
计算机图形学 AlphaFold 是一个神经网络,它通过将蛋白质结构建模和预测为 3D 空间中的图推理问题来创建高精度的 3D 蛋白质结构 14,其中附近的残基定义图的边缘。对表示被编码为图中的有向边(即残基之间的连接)。 NVIDIA Canvas 应用程序 GauGAN 实时将“海浪拍打海滩上的岩石”等文本短语转换为虚拟风景图像。当添加形容词(如“岩石海滩上的日落”)或将“日落”替换为“下午”或“下雨天”时,模型会立即修改图片。 15 类似地,DALL•E 是 GPT-3 的编译版本,它以文本/图像对为输入,根据用自然语言表达的概念的文本描述生成图像。 16 最新的基于 GDM 的文本到图像生成方法是 DALL•E 2 16,17 和 Imagen 18,它们分别能够生成多样化、高质量的艺术和逼真图像。3D-GAN 创建 3D 形状 19,可以在 3D 空间中操作(几何变换),然后缩小到 2D 图像表示。
自2010年代以来,机器学习2的快速进步2已实现了许多新的数字技术 - 从日益高级的自然语言处理系统和机器人到高度准确的图像分类算法和大数据分析。随着这些新技术的可能性,医疗保健和医学研究已成为实际应用的重要重点。例如,自然语言处理系统IBM Watson在2013年因在测验节目《 Jeopardy》中赢得了备受瞩目的胜利而闻名!随后,IBM开发了Watson的肿瘤学 - 该系统的一种旨在分析大量医学文献的系统,并向癌症护理中的医生提出治疗选择。3同样,Google DeepMind利用其在医疗应用中的开拓机器学习研究中享有声誉,例如图像分类以检测眼睛扫描中的糖尿病性视网膜病的早期迹象,4和Alphafold,该系统可以预测具有高准确性的蛋白质3D结构,并因此,可能会加快药物发现过程。5更普遍地,将机器学习应用于医疗问题的新研究通常会发表,报告的绩效与人类医疗保健专业人员相当或超过。6
蛋白质结构预测对于理解蛋白质稳定性和相互作用至关重要。它具有巨大的药物发现和蛋白质工程潜力。然而,尽管结构生物信息学和人工智能方面取得了进步,但仍需要确定结构预测的标准化模型。即使像Alphafold这样的突出模型也经常发生建筑变化。为了解决这一差距,已经介绍了最新进展和深度学习蛋白质结构预测的挑战的全面细节。此外,还引入了用于用户提供的蛋白质序列的结构预测和可视化的基准系统。,人们已经引入了有效,准确的方法来破译蛋白质结构及其生物学作用,而已引入了葡萄蛋白。该模型利用了变压器结构的有效表示学习能力,可以直接预测整数编码的氨基酸序列的次级和三级结构。结果证明了摄取蛋白在二级结构预测中的作用。对于增强其在预测高阶结构方面的性能是必要的进一步完善。现在