Loading...
机构名称:
¥ 1.0

蛋白质在生物过程中起着至关重要的作用,并且是活生物体的浓汤。蛋白质的准确表示至关重要,尤其是在药物开发中。最近,利用机器学习和深度学习技术的兴趣显着提高,用于无监督的蛋白质反应。然而,这些方法通常仅关注蛋白质的氨基酸序列,缺乏有关蛋白质及其相互作用的事实知识,从而限制了它们的性能。在这项研究中,我们提出了Goproteingnn,这是一种新型的结构,通过在氨基酸水平代表创建过程中整合蛋白质知识图信息来吸引蛋白质语言模型。我们的方法允许在单个氨基酸水平和整个蛋白质水平上整合信息,从而通过基于图的学​​习实现了全面有效的学习过程。这样做,我们可以捕获蛋白质及其功能注释之间的复杂关系和依赖性,从而产生更健壮和上下文富集的蛋白质表示。与以前的方法不同,Goproteingnn在训练过程中独特地学习了整个蛋白质知识图,这使其能够捕获更广泛的关系细微差别和依赖于以前的工作中的单元超出三胞胎。我们对几个下游任务进行了全面的评估,表明goproteingnn始终优于先前的方法,展示其有效性并确定其作为蛋白质表示学习的状态解决方案。

arxiv:2502.05610v1 [CS.CL] 2025年2月8日

arxiv:2502.05610v1 [CS.CL] 2025年2月8日PDF文件第1页

arxiv:2502.05610v1 [CS.CL] 2025年2月8日PDF文件第2页

arxiv:2502.05610v1 [CS.CL] 2025年2月8日PDF文件第3页

arxiv:2502.05610v1 [CS.CL] 2025年2月8日PDF文件第4页

arxiv:2502.05610v1 [CS.CL] 2025年2月8日PDF文件第5页

相关文件推荐