(IC50) 值是从欧洲化学分子生物学实验室 (CHEMBL) 数据库中检索到的。18 下载数据后,我们过滤掉缺少 IC50 值的 SMILES 条目,只保留以纳摩尔 (nM) 为单位测量的生物活性条目,并删除重复的分子,得到 744 个数据点。由于 IC50 值的尺度各不相同,它们被转换成相应的负对数,称为 pIC50 值。此阶段使用 P zer 规则,也称为 Lipinski 五规则 (RO5),根据药物相似性过滤数据。19,20 满足大多数 Ro5 参数并不能确保化合物会成为药物;它仅表示药物相似性并有助于在临床前阶段淘汰较弱的化合物。我们使用应用 RO5 过滤器后剩余的 659 个数据点来训练模型。图 2 显示了数据集中 RO5 域内或域外的化合物的蜘蛛图。
主要关键词