蛋白质通常表示为1D序列和2D/3D结构的多模式数据,为机器学习和计算生物学社区提供了一个激励示例,以推进多模式表示学习。蛋白质语言模型对结构的序列和几何深度学习学习了下游任务的出色单模式表示。因此,希望融合单模模型以更好地表示学习。,但仍然是一个公开的问题,即如何将它们有效地融合到多模式表示学习中,尤其是在适度的计算成本却具有显着的下游性能增益。要回答这个问题,我们建议利用单独验证的单模式模型,将它们集成到并行连接中,并在多模式的共同学习的框架下端到端端到端终极地预处理它们。技术挑战是在解决各种方式的异质性,尤其是各种语义鲁棒性的异质性的同时,构建内部和模式间对比的观点。我们通过对蛋白质同源性的领域知识来解决挑战,以告知积极观点的设计,特别是家庭的蛋白质分类(基于序列中的相似性)和超家族(基于结构的相似性)。我们还评估了与其他积极观点(例如身份和种植)相比,与其他积极观点相比,我们还评估了这种观点的使用。关于酶分类和蛋白函数预测基准的广泛实验证明了域信息构造构建和组合在多模式对比度学习中的潜力。
主要关键词