所有数据均由 Leash Biosciences 内部生成,比赛将由 Kaggle 举办。由于 DEL 化学的重叠性质,测试训练拆分必然会减少比赛期间可用的数据量(例如,对于测试集中的给定构建块,必须从训练和验证集中删除包含该构建块的所有分子)。我们为每种蛋白质提供大约 98M 个训练示例、200K 个验证示例和 360K 个测试分子。这些数据集非常不平衡:大约 0.5% 的示例被归类为命中。在这里,示例是标记为结合剂或不是结合剂的小分子;我们使用了 3 轮选择,共三次,以通过实验识别结合剂。比赛结束后,Leash 将提供所有数据以供将来使用(3 个目标 * 3 轮选择 * 3 次重复 * 1.33 亿个分子,或 3.6 亿次测量)。