对语言模型(LMS)的自我监督培训(LMS)在学习有意义的表述和生成药物设计方面已经取得了巨大的成功。大多数蛋白质LMS都基于对具有短上下文长度的独立蛋白质训练的变压器结构。这种蛋白质LMS不能很好地推断出更长的蛋白质和蛋白质复合物。他们也无法说明生物分子相互作用和动力学所实现的不明显的生物学机制,即蛋白经常与复杂生物系统中其他蛋白质,分子和途径相互作用。在这项工作中,我们提出了基于选择性的结构化状态空间模型的替代蛋白LM体系结构Bimamba-S的LC-PLM,以使用掩盖的语言模型来学习氨基酸级的高质量通用蛋白质表示。我们还介绍了其图形上下文变体LC-PLM-G,该变体将蛋白质 - 蛋白质相互作用(PPI)图上下文进行了训练的第二阶段。LC-PLM表现出比较有利的神经缩放定律,更好的外推能力,而下游蛋白质任务的提高了7%至34%。LC-PLM-G在PPI图的背景下进一步训练了蛋白质结构和功能预测任务的有希望的结果。我们的研究证明了通过计算有效的LM体系结构增加上下文大小的好处(例如结构化状态空间模型)在学习通用蛋白质表示并结合了生物图中包含的分子相互作用环境中。
主要关键词