蛋白质 - 蛋白质相互作用(PPI)是理解生物学过程并在治疗进步中起关键作用的基础。作为PPI增益吸引力的深度学习对接方法,基准测试协议和针对有效培训的数据集,用于有效培训和评估其在现实世界情景中的一般性功能和绩效。旨在克服现有方法的局限性,我们引入了Pinder,这是一个全面的注释数据集,该数据集使用结构聚类来得出非冗余接口的数据拆分和In-Incon-Includes holo(bound),apo(Unbound),apo(Unbound)和组合预测的结构。Pinder由2,319,564个二聚体PPI系统(最高2500万个增强PPI)和1,955个高质量测试PPI组成,并删除了接口数据泄漏。在方面,Pinder提供了一个带有180个二聚体的测试子集,可与Alphafold-Multimer进行比较,而没有任何接口泄漏其训练集。毫不奇怪,Pinder-Bench-Mark表明,在漏水测试集评估时,现有对接模型的性能被高估了。最重要的是,通过在Pinder界面聚集的分裂上重新培训,我们表明训练分裂的基于接口群集的采样,以及多样化且较少的漏水验证拆分,可实现强大的概括改进。
主要关键词