91,否。12,2023,pp。1658-1683,doi:10.1002/prot.26609
通过挖掘现代数据库来寻找具有特定功能的蛋白质,可能会导致从医学和生物技术到Material Science的广泛领域的重大进步。当前可用的算法可以根据其序列或结构来挖掘蛋白质。然而,许多蛋白质的活性,例如酶和药物靶标,是由活性位点残基及其周围环境而不是蛋白质的整体结构或序列决定的。在这里,我们提出了ActSeek(一个由计算机视觉启发的快速程序),该程序搜索具有类似种子蛋白质的活性位点的蛋白质的结构数据库。ActSeek实施从Alphafold数据库中使用所需的活动站点环境开采Proinins。通过发现可用于生产可生物降解的塑料或降解塑料的酶以及对常见药物分子的潜在非目标,可以证明ActSeek为世界上最紧迫的挑战找到创新解决方案的潜力。
分子胶代表了一种创新的药物类别,可实现以前不可能的蛋白质蛋白质相互作用,但是它们的理性设计仍然具有挑战性,这一问题准确的三元复合物建模可以显着解决。在这里,我们提出了YDS-Ternoplex,这是一种新型的计算方法,可以通过在推断过程中纳入增强的采样电感偏置来准确预测分子胶水介导的三元复合物结构,从而增强AlphaFold 3型模型。我们在五种不同的测试用例中展示了YDS-andOplex的功能,包括基于E3连接酶的系统(VHL:CDO1和CRBN复合物,具有MTOR-FRB,NEK7和VAV1-SH3C)和非E3连接酶复合物(FKBP12:MTOR-FRB)。与实验结构相比,该模型的RMSD值低至1.303Å,可实现出色的准确性,并成功预测了训练数据中不存在的新型蛋白质蛋白接口。值得注意的是,在FKBP12:MTOR-FRB情况下,YDS-Ternoplex正确预测了一种新颖的接口配置,而不是默认为训练数据中存在的已知相互作用,表明了强大的概括能力。我们的结果表明,通过电感偏差对推理过程的战略增强可以显着提高三元复合物预测的准确性,从而有可能加速以前不可用靶标的分子胶治疗剂的发展。
本质上无序的蛋白质和区域(IDP/IDR)利用其结构性挠性来实现必要的细胞功能,并且功能障碍通常与严重疾病有关。然而,它们的序列,结构动力学和功能角色之间的关系仍然很少理解。将这些复杂关系熟悉的对于特性的发展至关重要,强调了对产生质量IDP/IDR构象异构体的方法的需求。 虽然Alphafold(AF)在建模结构域中表现出色,但它无法准确地代表无序区域,而蛋白质组织的很大一部分不准确。 我们提出了Afflecto,这是一种用户友好的Web服务器,用于生成蛋白质的大构象合奏,其中包括AF结构模型的结构化域和IDR。 通过分析其结构上下文,将IDR识别为尾部,接头或循环。 此外,它结合了一种方法来识别有条件折叠的IDR,AF可能错误地预测为本质上折叠的元素。 使用有效的随机采样算法在全球探索构象空间。 AffLecto的Web界面允许用户通过修改有序区域和分配区域之间的边界以及在几种采样策略之间进行选择来自定义建模。 Web服务器可在https://moma.laas.fr/applications/afflecto/免费获得。对于特性的发展至关重要,强调了对产生质量IDP/IDR构象异构体的方法的需求。虽然Alphafold(AF)在建模结构域中表现出色,但它无法准确地代表无序区域,而蛋白质组织的很大一部分不准确。我们提出了Afflecto,这是一种用户友好的Web服务器,用于生成蛋白质的大构象合奏,其中包括AF结构模型的结构化域和IDR。通过分析其结构上下文,将IDR识别为尾部,接头或循环。此外,它结合了一种方法来识别有条件折叠的IDR,AF可能错误地预测为本质上折叠的元素。使用有效的随机采样算法在全球探索构象空间。AffLecto的Web界面允许用户通过修改有序区域和分配区域之间的边界以及在几种采样策略之间进行选择来自定义建模。Web服务器可在https://moma.laas.fr/applications/afflecto/免费获得。
图1:Amye的双横断事件。(a)AMYE集成矢量(顶部)的示意图,旨在将插入(黄色)集成到基因组中,如转化基因组(底部)所示。在集成向量上,插入物侧面是两个同源臂,Amye -Front和Amye -Back(绿色)。(b)缺失同源性区域的示意图。在枯草芽孢杆菌基因组中,AMYE之后是LDH-LCTP操纵子(顶部)。在PBGTRP及其衍生物中,带注释的Amye-Back区域之后是LDH的153 bp片段,而缺少中间的227 bp序列(底部)。(c)两个可能的双重跨事件。在这两种情况下,交叉都按预期的是在上游氨基部区域发生的,但是质粒中的基因组序列丢失允许在下游杏仁区域进行两个可能的重组事件。次要事件导致含有核糖体结合位点和LDH的第一个215个核苷酸的基因组序列损失。
AlphaFold 是一种预测蛋白质结构的人工智能工具,在两年一度的蛋白质结构预测挑战赛中,它击败了大约 100 个团队,而这一挑战赛长期以来一直困扰着生物学家。在 2023 年 12 月的更新中,Isomorphic Labs 和 DeepMind 发布了改进的 AlphaFold 模型,该模型可以更准确地预测蛋白质结构,并模拟与配体等其他分子的相互作用。AlphaFold 预测了人体中几乎所有蛋白质的形状,以及在 20 种研究最广泛的生物体(包括酵母、果蝇和老鼠)中发现的数十万种其他蛋白质。最近,在 2024 年 5 月,该团队推出了 AlphaFold 3,这是一种新模型,不仅可以预测蛋白质的结构,还可以预测几乎所有生物元素,如 DNA、RNA、配体及其相互作用。
机械活性蛋白对于无数生理和病理过程至关重要。在单分子力谱 (SMFS) 技术的进步的指导下,我们已经在分子水平上了解了几种机械活性蛋白如何响应机械力。然而,即使是 SMFS 也有其局限性,包括在力加载实验中缺乏详细的结构信息。这就是分子动力学 (MD) 方法大放异彩的地方,它以飞秒时间分辨率提供原子细节。然而,MD 严重依赖于高分辨率结构的可用性,而大多数蛋白质都无法获得高分辨率结构。例如,蛋白质数据库目前已存储 192K 个结构,而 Uniprot 上有 231M 个蛋白质序列。但许多人打赌这个差距可能很快就会缩小。在过去的一年里,基于人工智能的 AlphaFold 首次能够根据蛋白质序列预测近乎天然的蛋白质折叠,从而在结构生物学领域引起了轰动。对于某些人来说,AlphaFold 正在推动结构生物学与生物信息学的融合。从这个角度来看,使用计算机模拟 SMFS 方法,我们研究了 AlphaFold 结构预测在研究葡萄球菌粘附蛋白的机械性能方面的可靠性。我们的结果表明,AlphaFold 可以产生极其可靠的蛋白质折叠,但在许多情况下无法准确预测高分辨率蛋白质复合物。尽管如此,结果表明 AlphaFold 可以彻底改变对这些蛋白质的研究,特别是通过允许高通量扫描蛋白质结构。同时,我们表明 AlphaFold 结果需要验证,不应盲目使用,否则可能会获得错误的蛋白质机制。
机械活性蛋白对于无数生理和病理过程至关重要。在单分子力谱 (SMFS) 技术的进步的指导下,我们已经在分子水平上了解了几种机械活性蛋白如何响应机械力。然而,即使是 SMFS 也有其局限性,包括在力加载实验中缺乏详细的结构信息。这就是分子动力学 (MD) 方法大放异彩的地方,它以飞秒时间分辨率提供原子细节。然而,MD 严重依赖于高分辨率结构的可用性,而大多数蛋白质都无法获得高分辨率结构。例如,蛋白质数据库目前已存储 192K 个结构,而 Uniprot 上有 231M 个蛋白质序列。但许多人打赌这个差距可能很快就会缩小。在过去的一年里,基于人工智能的 AlphaFold 首次能够根据蛋白质序列预测近乎天然的蛋白质折叠,从而在结构生物学领域引起了轰动。对于某些人来说,AlphaFold 正在推动结构生物学与生物信息学的融合。从这个角度来看,使用计算机模拟 SMFS 方法,我们研究了 AlphaFold 结构预测在研究葡萄球菌粘附蛋白的机械性能方面的可靠性。我们的结果表明,AlphaFold 可以产生极其可靠的蛋白质折叠,但在许多情况下无法准确预测高分辨率蛋白质复合物。尽管如此,结果表明 AlphaFold 可以彻底改变对这些蛋白质的研究,特别是通过允许高通量扫描蛋白质结构。同时,我们表明 AlphaFold 结果需要验证,不应盲目使用,否则可能会获得错误的蛋白质机制。
机械活性蛋白对于无数生理和病理过程至关重要。在单分子力谱 (SMFS) 技术的进步的指导下,我们已经在分子水平上了解了机械活性蛋白如何感知和响应机械力。然而,即使是 SMFS 也有其局限性,包括在力加载实验中缺乏详细的结构信息。这正是分子动力学 (MD) 方法大放异彩的地方,它以飞秒时间分辨率提供原子细节。然而,MD 严重依赖于高分辨率结构数据的可用性,而大多数蛋白质都无法获得这些数据。例如,蛋白质数据库目前存储了 192K 个结构,而 Uniprot 上有 231M 个蛋白质序列。但许多人认为,这一差距可能很快就会缩小。在过去的一年里,基于人工智能的 AlphaFold 能够根据蛋白质序列预测近天然蛋白质折叠,从而在结构生物学领域引起了轰动。对于一些人来说,AlphaFold 正在促成结构生物学与生物信息学的融合。在这里,我们使用我们小组首创的计算机模拟 SMFS 方法,研究 AlphaFold 结构预测在研究葡萄球菌粘附蛋白的机械性能方面的可靠性。我们的结果表明,AlphaFold 可以产生极其可靠的蛋白质折叠,但在许多情况下无法准确预测高分辨率蛋白质复合物。尽管如此,结果表明 AlphaFold 可以彻底改变对这些蛋白质的研究,特别是通过允许对蛋白质结构进行高通量扫描。同时,我们表明 AlphaFold 结果需要验证,不应盲目使用,否则可能会获得错误的蛋白质机制。
图1 Polyq疾病蛋白的αFOLD结构。 (A) Predicted AlphaFold protein model of full-length ATXN1 (Human; AF-P54253), (B) ATXN2 (Human; AF-Q99700), (C) ATXN3 (Human; AF-P54252), (D) ATXN7 (Human; AF-O15265), (E) CACNA1A (Human; AF-O00555), (F) TBP(人类; AF-P20226),(G)AR(人类; AF-P10275)和(H)ATN1(Human; AF-P54259)。 (i)预测氨基酸残基1至413的Alphafold蛋白模型HTT(HTTQ21(1-414)),其中包含21个聚谷氨酰胺。 预测的HTTQ21(1-414)AlphaFold模型叠加在灰色(蛋白质数据库ID 6x9O,2.60Å分辨率[99]中显示的Cryo-EM确定的HTT-HAP40蛋白结构[99],其中未在Cryo-Em结构中确定PolyQ区域。图1 Polyq疾病蛋白的αFOLD结构。(A) Predicted AlphaFold protein model of full-length ATXN1 (Human; AF-P54253), (B) ATXN2 (Human; AF-Q99700), (C) ATXN3 (Human; AF-P54252), (D) ATXN7 (Human; AF-O15265), (E) CACNA1A (Human; AF-O00555), (F) TBP(人类; AF-P20226),(G)AR(人类; AF-P10275)和(H)ATN1(Human; AF-P54259)。(i)预测氨基酸残基1至413的Alphafold蛋白模型HTT(HTTQ21(1-414)),其中包含21个聚谷氨酰胺。预测的HTTQ21(1-414)AlphaFold模型叠加在灰色(蛋白质数据库ID 6x9O,2.60Å分辨率[99]中显示的Cryo-EM确定的HTT-HAP40蛋白结构[99],其中未在Cryo-Em结构中确定PolyQ区域。HTTQ21(1-414)模型高度对齐冷冻结构。由黑色矩形构建的残基代表野生型Polyq区域。比例尺表示源自AlphaFold预测的PLDDT值,并表示每日置信度度量[97]:PLDDT> 90,高精度; 90> plddt> 70建模良好; 70> PLDDT> 50低置信度; PLDDT <50差精度。ar,雄激素受体; ATN1,Atrophin 1; atxn1,ataxin 1; atxn2,ataxin 2; atxn3,ataxin 3; atxn7,ataxin 7; Cacna1a,钙电源门控通道亚基Alpha1 A(Cav2.1);冷冻电子,冷冻电子显微镜; HTT,亨廷顿; PLDDT,每个保留模型置信度评分; Polyq,聚谷氨酰胺; TBP,TATA结合蛋白。