摘要 — 药物-靶标相互作用 (DTI) 预测在药物发现和化学基因组学研究中非常重要。机器学习,尤其是深度学习,在过去几年中极大地推动了这一领域的发展。然而,学术论文中报告的性能与实际药物发现环境中的性能之间存在显著差距,例如基于随机分割的评估策略在估计现实环境中的预测性能时往往过于乐观。这种性能差距主要是由于实验数据集中隐藏的数据偏差和不适当的数据分割。在本文中,我们构建了一个低偏差 DTI 数据集,并研究了更具挑战性的数据分割策略,以改进现实设置的性能评估。具体而言,我们研究了流行的 DTI 数据集 BindingDB 中的数据偏差,并使用五种不同的数据分割策略重新评估了三种最先进的深度学习模型的预测性能:随机分割、冷药分割、支架分割和两种基于层次聚类的分割。此外,我们全面检查了六个性能指标。我们的实验结果证实了流行的随机分割的过度乐观,并表明基于层次聚类的分割更具挑战性,并且可以在现实世界的 DTI 预测设置中提供对模型通用性的更有用的评估。索引术语——药物-靶标相互作用、数据偏差、数据分割策略、性能评估
主要关键词