监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
虽然药物-靶标相互作用 (DTI) 预测研究已经相当成熟,但该领域现有研究并未始终解决可推广性和可解释性问题。在本文中,我们提出了一个基于深度学习的框架,称为 BindingSite-AugmentedDTA,该框架通过减少蛋白质潜在结合位点的搜索空间来改善药物-靶标亲和力 (DTA) 预测,从而使结合亲和力预测更加高效和准确。我们的 BindingSite-AugmentedDTA 具有高度可推广性,因为它可以与任何基于 DL 的回归模型集成,同时显著提高它们的预测性能。此外,与许多现有模型不同,我们的模型由于其架构和自注意力机制而具有高度可解释性,通过将注意力权重映射回蛋白质结合位点,可以更深入地理解其底层预测机制。计算结果证实,我们的框架可以在 4 个广泛使用的评估指标方面提高七种最先进的 DTA 预测算法的预测性能,包括一致性指数 (CI)、均方误差 (MSE)、修正平方相关系数 ( r 2 m) 和精度曲线下面积 (AUPC)。我们还为两个最常用的 DTA 基准数据集(即 Kiba 和 Davis)做出了贡献,包括这两个数据集中包含的所有蛋白质的 3D 结构的附加信息。我们从 https://www.uniprot.org/ 上提供的蛋白质数据库 (PDB) 文件中手动提取了这些信息。此外,我们通过实验室实验验证了我们提出的框架的实际潜力。我们测量了几种候选药物化合物之间的结合相互作用,以抑制 (SARS-CoV-2 S-蛋白 RBD) 刺突蛋白和 ACE-2(宿主细胞结合靶标)蛋白之间的结合。然后,我们将计算预测的结果与实验室中实验观察到的结果进行比较。计算预测和实验观察到的结合相互作用之间相对较高的一致性支持了我们的框架作为药物再利用预测模型的下一代流程的潜力。