监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
主要关键词