虚拟筛选等预测方法已用于药物研发,目的是减少开发时间和成本。当前的机器学习和基于网络的方法存在与泛化、可用性或模型可解释性相关的问题,特别是由于目标蛋白的结构/功能的复杂性以及系统训练数据集的偏差。在这里,我们提出了一种新方法“DRUIDom”(DRUg 相互作用域预测),利用蛋白质的结构域模块化来识别药物候选化合物和靶标之间的生物相互作用,以克服与当前方法相关的问题。DRUIDom 由两个方法步骤组成。首先,将配体/化合物统计地映射到其靶蛋白的结构域,目的是识别它们的相互作用。这样,包含相同映射域或域对的其他蛋白质就成为相应化合物的新候选靶标。接下来,根据分子相似性对百万级小分子化合物数据集(包括上一步中映射到域的化合物)进行聚类,并将它们的域关联传播到同一聚类内的其他化合物。从公共数据库获得的经过实验验证的生物活性数据点经过精心筛选,构建活性/相互作用和非活性/非相互作用药物/化合物-靶标对的数据集(约 290 万个数据点),并用作计算化合物-域映射参数的训练数据,从而得到 250 个域和 8,165 种化合物之间的 27,032 个高置信度关联,最终输出约 500 万个新的化合物-蛋白质相互作用。通过对预测靶向 LIM-激酶蛋白的化合物进行合成和生物活性分析,对 DRUIdom 进行了实验验证,LIM-激酶蛋白在通过肌动蛋白丝动力学调节细胞运动、细胞周期进程和分化方面发挥关键作用。我们发现 LIMK-inhibitor-2 及其衍生物通过抑制 LIMK 磷酸化和下游蛋白肌动蛋白丝切蛋白,显著阻止癌细胞迁移。
主要关键词