在研究世界中,2024年将被记住为诺贝尔人人工智能奖(AI)。物理学的一种,授予约翰·霍普菲尔德(John Hopfield)和杰弗里·欣顿(Geoffrey Hinton)的基本发现和发明,使机器学习能够使用人工神经网络,已密封物理学与信息科学之间的联系,现在在经过50多年的富有成果的互动之后,现已正式在强烈的跨学科边界领域上进行正式交配(人工互动,2024年,2024年)。更具体地说,将AI连接到生物分子建模涉及授予David Baker的诺贝尔化学奖,用于计算蛋白质设计,Demis Hassabis和John Jumper用于蛋白质结构预测。许多统计数据说明了人工智能在生物模型领域的影响。在科学文献数据库中进行了与AI相关的关键字相关的与计算机建模相关的询问可得出约120,000个结果(如果搜索仅限于摘要,则结果约为6,000个结果,如图1所示)。从2018 - 19年开始观察到的指数上升是诺贝尔的序幕,大约与两个软件套件的外观Alphafold(Senifor et al。,2019)和Rosettafold(Humphreys等,2021)相吻合,该方法实现了蛋白质折叠和蛋白质折叠和蛋白质设计方法的方法。在奖励研究仅几年后获得诺贝尔奖非常罕见,但肯定不是偶然的。基于同源性建模的蛋白质结构预测的方法是从1990年代开始的,并在流行中实施
ChatGPT 和其他生成式人工智能 (AI) 系统的发布改变了企业的游戏规则 (Edelman 和 Abraham,2023 年;OpenAI,2022a)。多年来,专家们一直预计人工智能将对几乎所有行业产生深远影响 (Berg 等人,2018 年;Chui 等人,2018 年)。然而,这种新型人工智能——生成式人工智能——正在增强这些预测 (Chui 等人,2022 年)。生成式 AI 包括大型语言模型(例如 LLaMA,参见 Meta AI,2023 年;GPT-3,参见 OpenAI 和 Pilipiszyn,2021 年;Bard,参见 Pichai,2023 年)、基于图像的系统(例如 Midjourney,参见 Midjourney,2022 年;DALL-E,参见 OpenAI,2022b 年;Stable Diffusion,参见 Stability AI,2022 年)和结合不同类型输入的多模态系统(例如 GPT-4,参见 OpenAI,2023 年)以及特定于应用的系统,例如用于蛋白质结构预测的 AlphaFold(Hassabis,2022 年)。任何尝试过这些系统的人都可以很快发现,它们不仅可以为企业提高效率和效能;它们将为企业创造强大的新能力的基础(Chui 等人,2022 年)。推动这些基础模型发展的最大科技公司(《经济学人》,2022 年)已经将这项技术融入其价值主张的核心(Iansiti 和 Lakhani,2020 年)。
随着蛋白质结构预测的进步,RNA结构预测最近从深度学习研究人员那里受到了越来越多的关注。rnas引入了实验性RNA结构的稀疏性和较低的结构多样性,因此引入了实质性的chal。现有文献通常对这些挑战的解决通常很差,其中许多报道由于使用培训和测试集具有显着的结构重叠而导致的性能。此外,最新的结构预测批判性评估(CASP15)表明,RNA结构的深度学习模型目前的表现优于传统方法。在本文中,我们介绍了从蛋白质数据库(PDB)推出的结构化RNA的数据集RNA3DB,该数据集旨在培训和基准测试深度学习模型。RNA3DB方法将RNA 3D链条分为不同的组(组件),这些链在序列和结构方面都不冗余,提供了一种可靠的方法来分割训练,验证和测试集。确保这些结构上不同的组件的任何分裂可以产生测试和验证集,这些测试集与训练集中的序列和结构不同。我们提供RNA3DB数据集,这是RNA3DB组件的特定火车/测试拆分(以大约70/30的比率),该数据将被更新时期
陆生植物的陆地定植涉及对环境压力(如脱水)的适应。虽然陆生植物进化过程中气孔和脱落酸 (ABA) 途径的创新已被充分研究,但尚不清楚绿藻和种子植物如何利用不依赖 ABA 的应激反应策略。我们发现,拟南芥植物的高渗应激会迅速且短暂地诱导 Thr349 处关键二聚体间界面处的 α-微管蛋白磷酸化。磷酸化的微管蛋白不会被整合到微管聚合物中,从而有效诱导现有微管的解体。负责该过程的植物特异性微管蛋白激酶 Propyzamide Hypersensitive 1 (PHS1) 通常被并置的磷酸酶结构域及其类似于激酶相互作用基序 (KIM) 的 N 端区域提供的磷酸酶活性灭活,但在高渗和盐度应激下会立即激活。磷酸酶失活的 PHS1 突变体具有组成活性,并在植物体内诱导剧烈的微管解聚。AlphaFold 的体外酶测定和蛋白质结构预测表明激酶调节有两种不同的机制:N 端延伸中的 KIM 促进 N 端折叠到激酶结构域上,从而物理阻断底物(微管蛋白)的可及性,而 C 端磷酸酶结构域使激酶催化位点中的关键残基(假定)脱磷酸化。急性和瞬时微管蛋白磷酸化以及随后由渗透胁迫引起的微管解体在拟南芥、苔类植物和衣藻中高度保守,表明其起源于淡水绿藻,早于脱落酸途径的进化。然而,其生理意义在很大程度上尚不清楚,可能是由于其高度瞬时性。
CATH(https://www.cathdb.info)从PDB中的实验蛋白结构和Alphafold数据库(AFDB)中预测的结构中分类的域结构。为了应对预测数据的规模,已经开发出一种新的NextFlow工作流量(Cath-Alphaflow),以将高质量的域分类为CATA超家族,并识别新颖的折叠组和超家族。Cath-Alphaflow使用一种新型的基于结构的结构域边界预测方法(Chainsaw)来识别多域蛋白质中的域。我们将CATA-AlphaFlow应用于未在21种模型生物体中的CATH和AFDB结构中分类的PDB结构,使CATH扩大了100%以上。域用于播种新颖的折叠,从PDB结构(2023年9月发行)中提供253个新折叠,而来自21个模型器官的蛋白质组织的AFDB结构中有96个。在可能的情况下,使用(i)从AFDB/uniprot50中的结构亲戚的注释中获得(i)预测(i)预测功能注释。我们还预测了功能部位和高度保守的残基。有些折叠与重要功能有关,例如光合作用的适应(感染植物),铁粘酶活性(在真菌中)和产后精子发生(在小鼠中)。Cath-Alphaflow将使我们能够在AFDB中识别更多的天主关系,从而进一步构成蛋白质结构景观。2024作者。由Elsevier Ltd.这是CC下的开放式访问文章(http://creativecom- mons.org/licenses/4.0/)。
以下是日本横滨 WCCI 2024 期间发生的一系列事件。这些例子表明,WCCI 社区中的一些活跃研究人员可能没有意识到问题的严重性和紧迫性。7 月 1 日,在公众眼中,Robert Cozma 禁止 NVidea 的 Simon See 回答我关于人工智能“大跃进”错误的提问。7 月 1 日,Kenji Doya 提出了类似“让不当行为继续进行而不进行纠正”的建议,因为这些出版物没有被引用。但他仍然不知道我指控 AlphaFold 以及几乎所有已发布的谷歌深度学习产品都存在同样的后选择不当行为。7 月 1 日,Asim Roy 对我说“我们需要谈谈”,但他没有留下来谈谈。昨晚在宴会上我进行了长时间的辩论。他似乎暗示,对少数网络进行后选择并隐藏整个种群的性能信息是“优胜劣汰”。他似乎并不认同人类进化需要把所有30亿人口都考虑进去,至少要像人类感知那样大量样本。7月3日,金耀初在一次主题演讲后没有让我提问。后来他似乎承认,AI领域很多人只报告他们喜欢的数据。7月3日,Kalanmoy Deb说他只是想用遗传算法找到解决方案,却不知道他所谓的解决方案根本没有经过测试。7月1日,我看到Springer Table上展示的所有书籍似乎都存在Post-Selection misconduct。我们是否在AI领域经历了一场充斥着虚假数据的“大跃进”?为什么?欢迎所有有兴趣的人讨论这个重要问题。
在最近的应用中,MSA的构建从有趣的查询顺序开始。该过程涉及搜索数据库以查找类似于查询的序列并将其对齐。DNA/RNA测序技术的最新进展扩大了Pub-LIC数据库,使能够产生具有高序列多样性的MSA [13,14]。通常认为这种MSA提供了更丰富的进化和协调性的见解,因此它们可以提高使用模型来下游任务的模型的有效性[9]。但是,由于MSA可以包含冗余序列,因此序列的数量本身可能不是其多样性的准确反映。“有效序列的数量”的概念,NEFF解决了这种冗余,并评估了MSA的质量。较高的NEFF值通常表明MSA更多样化和信息丰富,从而导致预测接触图和蛋白质或RNA分子的三级结构的精度[15,16]。例如,当NEFF值低于30 [5]时,Alphafold的准确性大大下降。此外,对于使用RNA的MSA作为输入的RNA结构预测模型(例如Trrosettarna),预测准确性与NEFF [7]相关,而对于高质量的MSA,这些模型可以胜过其他方法[17]。我们介绍了Neffy,这是一种快速而专用的独立工具,用于NEFF计算。neffy具有唯一装备的分析MSA,并在蛋白质和核酸序列的多种MSA格式中计算NEFF。它集成了NEFF工具(请参阅表1)中的所有功能,并提供一组新功能。neffy是在C ++中开发的,以实现最佳性能,并作为包装C ++可执行文件的Python库提供。这种方法可以使无缝集成到基于Python的工作流程中,从而简化了更广泛的受众的使用,同时保持效率。
Halima Bensmail卡塔尔计算研究所的目的:蛋白质的产生在诸如药物设计和蛋白质工程等领域具有广泛的应用前景,可以使用机器学习或深度学习,可以产生蛋白质序列。希望生成的序列具有良好的可折叠性,以便它们可以形成稳定的三维结构。此外,预期所需的蛋白质将表现出特定的功能特性,包括酶活性和抗体结合能力。大语言模型的进步和条件模型的整合已显着推动了蛋白质产生领域的进步。该模型(称为后代)将Uniprotkb关键字包含为2020年的条件标签。这些标签包括一个由各种类别组成的词汇,包括“生物过程”,“细胞成分”和“分子功能”。总共有条件的标签包含超过1,100个不同条款。在评估使用指标相似性,二级结构准确性和构象能产生的蛋白质序列时,它们表现出所需的结构特性。在2022年,受到生成变压器模型(例如GPT-X系列)的显着成就的启发,Protgpt2的发展出现了。值得注意的是,Protgpt2产生的蛋白质表现出符合天然原理的氨基酸倾向。看来Protgpt2已经获得了特定于蛋白质的语言。拟议的工作将重点介绍对这两种术语和Protgpt2的评估。涉及疾病和二级结构预测的评估表明,Protgpt2生成的蛋白质的绝大多数(88%)具有球形特征,与自然序列中的属性保持一致。在Protgpt2序列上采用AlphaFold会产生折叠的非思想结构,包括存在广泛的回路的存在以及当前结构数据库中不存在的以前看不见的拓扑结构。我们还将使用llms使用蛋白质序列作为输入来进行蛋白质功能预测,并为多种蛋白质任务(例如同源性预测)以及二级结构预测,蛋白质溶解度和蛋白质结晶微调模型,并将其与Sproberta进行比较。
响应多种细胞信号,丝裂原活化蛋白激酶 MAP3K1 参与各种癌症信号网络,包括 NF κ B、JNK、ERK 和 p38 通路。MAP3K1 作为这些致癌通路中的信号激酶,促进肿瘤生长和转移。此外,胰腺癌患者中较高的 MAP3K1 转录水平与较差的 5 年生存率(50% vs. 15%)相关,这表明 MAP3K1 是癌症的一个有吸引力的治疗靶点。我们最近报道了一种喹喔啉类似物作为选择性 MAP3K1 抑制剂的发现(2022,PNAS)。使用 MAP3K1 AlphaFold 和 Schrödinger GLIDE 进行结构引导设计,得到 51-106,预计通过形成正交多极相互作用,它对 MAP3K1 的亲和力会提高。使用 KiNativ TM 平台在细胞基质中分析 51-106 表明 51-106 确实是一种具有改进效力的选择性 ATP 竞争性 MAP3K1 抑制剂。后续研究表明 51-106 阻断了 TNF α 诱导的 MAP3K1-IKK β 介导的 NF κ B 活性。51-106 抑制 MAP3K1 后进行的磷酸化蛋白质组学分析显示 NPM1 T199 磷酸化呈剂量依赖性下降,表明 NPM1 是 MAP3K1 的新底物。NPM1 在 DNA 损伤修复中起着关键作用;我们持续观察到 51-106 抑制 MAP3K1 后剂量依赖性的 S 期停滞,表明 DNA 损伤反应功能失调。用 MAP3K1 抑制剂 51-106 治疗胰腺癌细胞系可抑制细胞生长和迁移。在联合研究中,51-106 与吉西他滨在体外 LSL- KrasG12D/+、LSL-Trp53R172H/+、Pdx1-Cre (KPC) 细胞系和体内 KPC 同源原位移植小鼠胰腺癌模型中协同抑制生长。总之,我们使用结构引导设计开发了改进的 MAP3K1 抑制剂。我们的研究首次将 NPM1 确定为 MAP3K1 信号传导的成员,这些结果值得研究 MAP3K1 抑制作为癌症治疗选择。
摘要:胃癌 (GC) 是一种高度异质性的复杂疾病,是全球第五大常见癌症(2018 年全球约有 100 万例病例和 784,000 例死亡)。GC 预后不良(5 年生存率不到 20%),但人们正在努力寻找在肿瘤形成过程中高表达的基因,并以相关蛋白质为靶点来寻找新的抗癌分子。从基因表达综合 (GEO) 库收集数据,以获得三个数据集矩阵,分析胃肿瘤组织与正常胃组织,并涉及使用 GPL570 平台和不同来源进行的微阵列分析。使用 GEPIA 工具对数据进行差异表达分析,使用 KMPlot 进行生存分析。为了提高稳健性,使用 TCGA 数据库中的 GC 数据来证实 GEO 数据的分析。通过 RT-qPCR 在几种 GC 细胞系中确认了 GEO 和 TCGA 中计算机分析发现的基因。使用 AlphaFold 蛋白质结构数据库来查找相应的蛋白质。然后,进行基于结构的虚拟筛选以寻找分子,并使用 DockThor 服务器进行对接分析。我们的计算机和 RT-qPCR 分析结果证实了 AJUBA 、 CD80 和 NOLC1 基因在 GC 系中高表达。因此,在 SBVS 分析中使用相应的蛋白质。共有三种分子,每个靶标一个分子,即 MCULE-2386589557-0-6、MCULE-9178344200-0-1 和 MCULE-5881513100-0-29。所有分子都具有良好的药代动力学、药效学和毒理学特性。分子对接分析表明,这些分子与蛋白质在对其活性至关重要的位点相互作用。使用虚拟筛选方法,对在致癌细胞功能中发挥重要作用的基因编码的蛋白质进行分子对接研究。将公共微阵列数据的系统收集与比较元分析、RT-qPCR、SBVS 和分子对接分析相结合,提供了一种合适的方法来寻找与 GC 有关的基因并与相应的蛋白质一起寻找具有抗癌特性的新分子。