结果:我们应用了转移学习的原理,以使用输入蛋白序列从蛋白质语言模型(PLM)产生的嵌入来预测蛋白质的热稳定性。我们使用了在数亿个已知序列上进行训练的大PLM。使用此类模型的嵌入使我们能够使用超过一百万个序列序列训练和验证高性能的预测方法,我们从具有注释的生长温度的生物体中收集了超过一百万个序列。我们的方法Temstapro(蛋白质的稳定温度)用于预测CRISPR-CAS II类效应蛋白(C2EPS)的热稳定性。预测表明,在热稳定性方面,C2EP组之间的差异很大,并且很大程度上与先前发表,并且我们新获得的实验数据。
主要关键词