识别药物-靶标相互作用 (DTI) 是药物发现和药物重新定位的重要步骤。为了降低实验成本,已经提出了大量用于此任务的计算方法。已经开发了基于机器学习的模型,尤其是二元分类模型来预测药物-靶标对是否相互作用。然而,当前方法的性能仍有很大改进空间。多标签学习可以克服单标签学习带来的一些困难,从而提高预测性能。多标签学习面临的关键挑战是指数级的输出空间,考虑标签相关性有助于克服这一挑战。在本文中,我们通过引入用于 DTI 预测的社区检测方法(称为 DTI-MLCD)来促进多标签分类。此外,我们更新了黄金标准数据集,在该数据集的基础上添加了 15,000 个以上的 DTI 正样本,该数据集自 2008 年以来已被大多数先前发布的 DTI 预测方法广泛使用。所提出的 DTI-MLCD 应用于这两个数据集,证明了它优于其他机器学习方法和几种现有方法。本研究的数据集和源代码可在 https://github.com/a96123155/DTI-MLCD 上免费获取。
1 上海交通大学微生物代谢国家重点实验室、生命科学与技术学院,上海 200240;2 深圳市南山区西丽街道万科云城一期 8 号楼鹏程实验室,518055;3 卡尔加里大学 摘要 识别药物-靶标相互作用 (DTI) 是药物发现和药物重新定位的重要步骤。为了降低大量的实验成本,蓬勃发展的机器学习已被应用于该领域并开发了许多计算方法,尤其是二元分类方法。然而,当前方法的性能仍有很大改进空间。多标签学习可以减少二元分类学习所面临的困难并具有较高的预测性能,并且尚未得到广泛探索。它面临的关键挑战是指数级的输出空间,考虑标签相关性可以帮助它。因此,我们通过引入用于 DTI 预测的社区检测方法 (称为 DTI-MLCD) 来促进多标签分类。另一方面,我们更新了2008年提出并沿用至今的金标准数据集。我们在更新前后的金标准数据集上执行了所提出的DTI-MLCD,结果表明它比其他经典机器学习方法和其他基准提出的方法更具优越性,证实了它的有效性。本研究的数据和代码可以在https://github.com/a96123155/DTI-MLCD找到。 关键词:药物-靶标相互作用,数据集更新,多标签学习,标签相关性,社区检测 1.引言 对于药物开发来说,药物发现(即发现潜在的新药)和药物重新定位(即获得具有新功效的旧药)是两个重要且成本高昂的策略[2],而实现它们的重要步骤就是预测DTI。近年来,许多研究将流行的机器学习技术应用于实现智能医疗,在一定程度上加速了药物开发的进程。对于DTIs预测,利用机器学习技术不仅可以缩小实验研究的实验范围,而且可以对实验研究起到指导作用。近年来有很多综述文章[3-7]总结了机器学习方法在DTIs预测领域的进展,二分类方法是其中一个重要分支。对于二分类方法