Abstract In the year 1971, the world's biggest structural biology collaboration name — The Research Collaboratory for Structural Bioinformatics (RCSB), was formed to gather all the structural biologists at a single platform and then extended out to be the world's most extensive structural data repository named RCSB-Protein Data Bank (PDB) (https://www.rcsb.org/) that has provided the服务已有50多年的历史,并继续为结构数据的发现和存储库提供遗产。RCSB已从合作网络发展为一个成熟的数据库和工具,其中包括大量蛋白质结构,含核酸酸的结构,模型结构和AlphaFold结构,最好的是,它每天都在随着工具和视觉体验的计算进步而扩展。在这篇评论文章中,我们讨论了RCSB如何成为一个成功的协作网络,其在每十年的扩展以及它如何帮助开创性的研究。还讨论了正在帮助研究人员,每年的数据沉积,验证,处理和建议的PDB工具,这些工具还可以帮助开发人员在未来几年的改善。本评论将帮助未来的研究人员了解RCSB及其在每十年的完整历史,以及如何在各个科学领域开发各种未来的协作网络,并通过将RCSB作为案例研究来成功。
生成的AI:OpenAI的GPT-4和Google Bard之类的模型已彻底改变了内容的生成,实现了类似人类的文本,图像和代码创建。跨越教育,医疗保健和创意产业的应用。多模式AI:Meta的Llama和Openai的Dall·E 3结合了文本,图像和视频处理,使AI系统能够理解和生成多种格式的输出。AI在药物发现中:基于AI的平台,例如DeepMind的Alphafold,已经预测了科学已知的几乎每种蛋白质的结构(截至2023年),加速了医学研究和药物开发。代码的生成AI:Github的Copilot X(2023)和OpenAI的Codex Automate Automate软件开发等工具,从而提高了开发人员的生产率和编码效率。语音中的生成AI:Elevenlabs和Vall-E(Microsoft,2023)启用高质量的语音综合,革新虚拟助手,有声读物和客户服务中的应用程序。自治代理:AI模型(如Autogpt和Babyagi)在没有人类干预的情况下执行多步自主任务,从而超越了单任务重点的AI能力。
抗生素传统上用于治疗细菌感染。但是,细菌可以对药物产生免疫力,使其无效,从而对全球健康构成严重威胁。识别和分类负责这种抗药性的基因对于预防,诊断和治疗感染以及对其机制的理解至关重要。为此目的开发的先前方法主要是基于序列的,这取决于与现有数据库或经过序列特征训练的机器学习模型的比较。但是,具有可比功能的基因可能并不总是具有相似的序列。因此,在本文中,我们开发了一种深度学习模型,该模型使用蛋白质结构作为对序列的补充来对新型抗生素抗生素抗生素基因(ARGS)进行分类,我们期望与单独的序列相比,该抗生素抗生素抗生素的基因(ARGS)提供了更多的有用信息。建议的方法包括两个步骤。首先,我们利用了备受瞩目的字母模型,以预测其氨基酸序列的3D结构。然后,我们使用基于变压器的蛋白质语言模型来处理序列,并将图神经网络应用于从结构中提取的图。我们在标准基准数据集上评估了所提出的体系结构,我们发现它以优于最先进的方法。
近年来,深度学习和基于人工智能的分子信息学发展迅猛。AlphaFold 的成功引发了人们对将深度学习应用于多个子领域的兴趣,包括合成化学的数字化转型、从科学文献中提取化学信息以及基于天然产物的药物发现中的人工智能。人工智能在分子信息学中的应用仍然受到这样一个事实的限制:用于训练和测试深度学习模型的大多数数据都不是 FAIR 和开放数据。随着开放科学实践越来越受欢迎,FAIR 数据运动、开放数据和开源软件等举措应运而生。对于分子信息学领域的研究人员来说,拥抱开放科学并提交支持其研究的数据和软件变得越来越重要。随着开源深度学习框架和云计算平台的出现,学术研究人员现在能够轻松部署和测试自己的深度学习算法。随着深度学习的新硬件和更快硬件的发展,以及数字研究数据管理基础设施的不断增加,以及促进开放数据、开源和开放科学的文化,人工智能驱动的分子信息学将继续发展。本综述探讨了分子信息学中开放数据和开放算法的现状,以及未来可以改进的方法。
图1。SOX2 C-IDR是无序且动态的。a)Sox2的示意图说明了本研究中使用的主要构建体。基于两个不同的预测因子(疾病332(虚线),Alphafold 19归一化PLDDT(实线)),该图显示了障碍预测与残基数的函数。DBD以及广告和富含丝氨酸的区域(有关详细信息,请参见文本)以及带电残基的位置。b)在5 µm浓度下不同SOX2变体的远紫外圆形二分法;全长Sox2(蓝色),C-IDR(灰色),N-DBD(绿色)。光谱是n = 3个独立测量值的平均值。c-d)Sox2荧光标记的单分子转移效率直方图,该荧光标记了DBD的两侧(残基37和120,分子数= 5323)或探测整个C- IDR(残基120-315,分子数量,分子数= 14544)。e)SOX2 C-IDR的荧光寿命分析。2D相关图显示了相对于固有供体荧光(d)的CY3B供体(da)的荧光寿命。动态线基于锯 - 聚合物模型。有关详细信息,请参见文本。f)1 H 15 N-HSQC全长SOX2的频谱。g)全长Sox2(蓝色)的CSCS图。确定DBD(绿色)的 SCSS针对孤立的N-
大学面临着一种新兴技术,在发展,标准化,监管和可用性方面仍然显示许多不确定性。斯坦福大学人工智能指数报告2024 1的主要要点清楚地证明了这一点:AI在某些领域超过了人类绩效,但仍落后于许多更复杂的任务。行业主导着Frontier人工智能研究,超级学术界和行业 - 学术合作;在这里,美国超过了中国,欧盟和英国,是顶级AI模型的主要来源。Frontier AI模型的培训成本越来越高,而生成AI的资金每年飙升至252亿美元。比较顶级AI模型的风险和局限性很难是由于缺乏负责任的AI基准标准化。同时,AI法规显着增加。AI可能会提高工作生产力并加速科学发现 - 一个观点的例子是Demis Hassabis和John Jumper的突破性AI模型Alphafold,该模型允许预测研究人员几乎所有的2亿蛋白质结构,这些蛋白质已识别为2024年化学中的贵族奖。同时,越来越多的世界人口认识到AI对他们的生活的不断上升,并关心了它。许多研究考虑了社会的社会利益和风险3。
RNA的功能与X射线晶体学,NMR和Cryo-EM传统上探索的3D结构本质上息息相关。但是,这些实验通常缺乏原子水平的分辨率,从而使需要准确的RNA RNA结构预测工具。这一需求推动了人工智能(AI)的进步,该技术已经彻底改变了蛋白质结构的预测。不幸的是,由于稀疏和不平衡的结构数据,RNA场中的类似突破仍然有限。在这里,我们介绍了RNAGRAIL,这是一种新型的RNA 3D结构预测方法,该方法侧重于使用denoising扩散概率模型(DDPM)进行RNA子结构。与Alphafold 3(AF3)不同,被许多人认为是Oracle,Rnagrail允许专家用户定义基本对约束,从而提供出色的灵活性和精确度。,我们的方法在平均RMSD方面优于AF3,而平均ERMSD的表现为24%。此外,就相互作用网络保真度(INF)而言,它完美地再现了规范的二级结构优于AF3。rnagrail表现出各种RNA图案和家庭的鲁棒性。尽管受过rRNA和tRNA的训练,但它有效地概括为新的RNA家族,因此解决了RNA 3D结构预测中的主要挑战之一。这些结果强调了专注于小的RNA组件并集成用户定义的约束以显着增强RNA 3D结构预测的潜力,从而在RNA建模中设定了新标准。
引物编辑 2 (PE2) 系统包含一个切口酶 Cas9,该切口酶与逆转录酶融合,利用引物编辑向导 RNA (pegRNA) 在目标基因组位点引入所需突变。然而,PE 效率受到错配修复 (MMR) 的限制,错配修复会切除包含所需编辑的 DNA 链。因此,通过显性负 MLH1 (MLH1dn) 的瞬时表达抑制 MMR 复合物的关键成分,PE 效率比 PE2 提高约 7.7 倍,从而生成 PE4。在此,通过利用生成人工智能 (AI) 技术 RFdiffusion 和 AlphaFold 3,我们最终生成了一种从头 MLH1 小结合物(称为 MLH1-SB),它与 MLH1 和 PMS2 的二聚体界面结合,以破坏关键 MMR 成分的形成。MLH1-SB 的尺寸很小(82 个氨基酸),因此可以通过 2A 系统将其整合到预先存在的 PE 架构中,从而创建一个新颖的 PE-SB 平台。结果,通过将 MLH1-SB 整合到 PE7 中,我们开发了一种改进的 PE 架构,称为 PE7-SB,它表现出迄今为止最高的 PE 效率(在 HeLa 细胞中是 PE2 的 29.4 倍,是 PE7 的 2.4 倍),这表明生成式 AI 技术将促进基因组编辑工具的改进。
蛋白质结构预测场通过蛋白质折叠模型(例如α2和Esmfold)进行了深入的学习革命。这些模型可以快速进行计算机预测,并已整合到从头蛋白设计和蛋白质 - 蛋白质相互作用(PPI)预测中。然而,这些模型无法估计取决于构象分布的生物学相关特征。扩散模型是一种新型的生成模型,已经开发出来学习构象分布并应用于从头蛋白质设计。有限的工作是对蛋白质结构插入的有限工作,在该蛋白质结构上,通过同时调节其序列和其余结构来恢复蒙版的截面。在这项工作中,我们提出了构架的iff i n p ain t ing(frameDipt),这是一种蛋白质授予的广义模型。这对于T细胞很重要,鉴于互补性确定区域(CDR)环的超变量性。,我们评估了T细胞受体的CDR回路设计模型,并通过有限的训练数据和可学习的参数获得了与蛋白烯剂的可比预测准确性和RFDiffusion。与确定性结构预测模型不同,框架捕获了不同区域和结合状态的构象分布,突出了生成模型的关键优势。模型和推理代码已发布1。
经过几十年的理论和计算发展,分子动力学 (MD) 模拟不仅已成为补充实验解释和预测的工具,而且还是更高级别模拟的基准。当我们考虑 MD 模拟所需的每个组件时:理论引擎(例如,牛顿运动定律、热力学定律、朗之万方程、泊松-玻尔兹曼方程等)、力场(计算势能和力的参数)、传播算法(例如,Verlet 积分)、系统(通常由坐标、速度和连接组成)、控制参数(如温度、压力等)和可观测量(例如,自由能计算、集体变量监测等),每个组件都经过了精心的手动发现、设计、调整和部署,已经取得了长足的进步。MD 模拟在大多数方面似乎已经“成熟”,在将自由能计算与生物系统结合起来方面实现了大约 ~1 kcal/mol 的精度。然而,折叠/展开蛋白质结构采样、蛋白质-蛋白质相互作用结构采样、大系统模拟、罕见事件模拟、具有不可忽略的核量子效应的模拟、反应、新材料的参数化和高通量自由能计算等问题仍然存在,需要新的研究和开发。自然而然,人们可以转向人工智能 (AI),这是另一个因硅革命而显著加速发展的领域。毋庸置疑,人工智能已经在与 MD 相关的领域中展示了它的实用性,尤其是在这个“后 AlphaFold 时代”。现在的问题不是“如果”,而是我们如何结合这两个强大的工具来进一步推动这两个领域的研究。