抽象蛋白质工程是合成生物学的关键方面,涉及现有蛋白质序列中氨基酸的修改12,以实现新颖或增强的功能13和物理性能。准确预测蛋白质变异效应需要彻底了解蛋白质序列,结构和功能。深度学习方法在指导蛋白质修饰方面具有出色的性能,可改善16个功能。然而,现有方法主要依赖于蛋白质序列,蛋白质序列在有效地编码氨基酸局部环境的几何方面时面临17个挑战,而18通常在捕获与蛋白质折叠稳定性,内部分子19相互作用和生物功能有关的关键细节方面经常缺乏。此外,在预测蛋白质热稳定性方面的20种方法中缺乏基本评估,尽管它是一种关键的物理特性,在实践中经常研究21种。为了应对这些挑战,本文介绍了一个新颖的22个预训练框架,该框架整合了蛋白质初级23和第三纪结构的顺序和几何编码器。该框架通过24模拟野生型蛋白上的自然选择来指导突变方向,并根据其25个效果来评估变异效应以执行特定功能。我们使用三个基准26评估提出的方法,其中包括300多个深突变扫描测定法。Pytorch 32实现可在https://github.com/tyang816/protssn上获得。33与其他零击28学习方法相比,预测结果在广泛的实验中展示了27个出色的表现,同时又在可训练的参数方面保持最低成本。这项29项研究不仅提出了一个有效的框架,以实现更准确,更全面的30个预测,以促进有效的蛋白质工程,而且还增强了Silico评估中的31系统,以使未来的深度学习模型更好地与经验要求保持一致。
主要关键词