基于序列的药物-靶标相互作用预测有可能通过补充实验筛选来加速药物发现。这种计算预测需要具有通用性和可扩展性,同时还要对输入的细微变化保持敏感。然而,目前的计算技术无法同时满足这些目标,往往以牺牲一个目标的性能来实现其他目标。我们开发了一种深度学习模型 ConPLex,成功地利用了预训练蛋白质语言模型(“PLex”)的进步,并采用了一种新颖的蛋白质锚定对比共嵌入(“Con”),其性能超越了最先进的方法。ConPLex 实现了高精度、对未知数据的广泛适应性以及对诱饵化合物的特异性。它根据学习到的表示之间的距离来预测结合,从而能够在海量化合物库和人类蛋白质组的规模上进行预测。此外,ConPLex 是可解释的,这使我们能够可视化药物靶标词典并使用嵌入来描述人类细胞表面蛋白的功能。我们预计 ConPLex 将通过在基因组规模上实现高度灵敏且可解释的计算机药物筛选来促进新药发现。ConPLex 可在 https://github.com/samsledje/ConPLex 上开源获取。
主要关键词