预测氨基酸取代引起的蛋白质热稳定性的变化对于了解人类疾病和工程有用的蛋白质对临床和工业应用至关重要。虽然蛋白质生成模型的最新进展是在以结构或进化序列环境为条件的氨基酸上学习概率分布的,但在没有任务特异性训练的情况下预测各种蛋白质特性方面表现出了令人印象深刻的性能,但其强大的无监督预测能力并未扩展到所有蛋白质功能。尤其是,它们改善蛋白质稳定性预测的潜力仍未得到探讨。在这项工作中,我们提出了一个新颖的深度学习框架,它可以适应和整合两个通用蛋白质生成模型 - 一种蛋白质语言模型(ESM)和一个反折叠模型(ProteinMPNN) - 有效的稳定性预测器。马刺采用轻量级的神经网络模块来将蛋白质MPNN学到的每个残留结构表示形式重新融合到ESM的注意层中,从而为ESM的序列表示学习提供了信息。这种重新布线策略使马刺能够从序列和结构数据中利用进化模式,在这种数据中,ESM所学的序列类似分布的条件是基于由蛋白质MPNN编码的结构先验,以预测突变效应。我们通过在最近发布的Mega规模的热稳定性数据集中进行监督的培训将该集成的框架引导到稳定预测模型。此外,它通过用作提高准确性的稳定性模型来增强当前的低N蛋白适应性预测模型。在12个基准数据集中进行的评估表明,马刺提供了准确,快速,可扩展和可推广的稳定性预测,并且始终超过了当前的最新方法。值得注意的是,马刺在蛋白稳定性和功能分析中表现出显着的多功能性:与蛋白质语言模型结合使用时,它以无监督的方式准确地识别蛋白质功能位点。这些结果突出显示了马刺是推动当前蛋白质稳定性预测和机器学习引导的蛋白质启动工作流程的强大工具。马刺的源代码可在https://github.com/luo-group/spurs上获得。
主要关键词