摘要:传统的高通量筛选 (HTS) 药物发现效率低下。具有临床治疗潜力的化合物的命中率通常为 0.5%,最多只有 2%。深度学习模型将筛选率提高到 28%;然而,这些结果包括与治疗无关浓度的命中、训练集的新颖性不足以及遍历有限的化学空间。这项研究介绍了一种新型人工智能 (AI) 驱动平台 GALILEO 和分子几何深度学习 (Mol-GDL) 模型 ChemPrint。该模型部署了 t 分布随机邻域嵌入 (t-SNE) 数据分割,以在训练期间最大化化学差异,并部署了自适应分子嵌入,以增强预测能力并探索未知的分子领域。回顾性测试时,ChemPrint 的表现优于一组五个模型难以用药的肿瘤靶点 AXL 和 BRD4,使用 t-SNEsplit 实现平均 AUROC 得分 AXL 为 0.897,BRD4 为 0.876,相比之下,基准模型得分范围为 AXL 为 0.826 至 0.885,BRD4 为 0.801 至 0.852。在一项零样本前瞻性研究中,体外测试表明,ChemPrint 提名的 41 种化合物中有 19 种在浓度≤20µM 时表现出抑制活性,命中率为 46%。这 19 个命中报告的平均-最大 Tanimoto 相似度得分相对于其训练集为 0.36,得分为 0.13 (AXL)和 0.10(BRD4)相对于这些目标的临床阶段化合物。我们的研究结果表明,通过在具有最大差异性的数据集上训练和测试 ChemPrint 来增加测试集难度可以增强模型的预测能力。这导致发现具有低治疗浓度和高化学新颖性的高命中率的化合物库。综上所述,所提出的平台设定了新的性能标准。
摘要:传统的高通量筛查(HTS)药物发现效率低下。具有临床治疗潜力的化合物的命中率通常为0.5%,最大最高为2%。深度学习模型使筛查率丰富至28%;但是,这些结果包括具有非治疗性相关浓度的命中,其训练集的新颖性不足以及化学空间有限。这项研究介绍了一种新颖的人工智能(AI)驱动的平台,伽利略和分子几何深度学习(Mol-GDL)模型,Chemprint。该模型部署了两个T分配的随机邻居嵌入(T-SNE)数据分裂,以在训练和适应性分子嵌入过程中最大化化学差异,以增强预测能力并导航未知的分子领土。进行回顾性测试时,Chemprint的表现优于五个模型的小组,用于难以放药肿瘤学目标,AXL和BRD4,AXL的AUROC平均得分为0.897,BRD4的AUROC得分为0.876,使用T-SNE分配的BRD4为0.826至0.826至0.885的基准分型,而T-SNE分开的平均得分为0.885。在一项零照片的前瞻性研究中,体外测试表明,通过针对AXL和BRD4提名的41种化合物中有19种在浓度≤20µm时表现出抑制活性,命中率为46%。19次命中报告的平均最高tanimoto相似性得分为0.36,相对于其训练组,得分为0.13(AXL)和0.10(BRD4),相对于这些目标的临床阶段化合物。这会导致以低治疗浓度和高化学新颖性的高命中率发现化合物文库。我们的发现表明,通过训练和测试具有最大差异性的训练和测试化学印记增加了测试的难度增强了模型的预测能力。综上所述,提议的平台设定了新的性能标准。