药物发现通常需要识别脱靶,因为化合物与预期靶标以外的靶标的结合在某些情况下可能是有益的,而在其他情况下可能是有害的(例如,与反靶标结合)。此类调查在项目的早期阶段也很重要,例如当靶标未知时(例如,表型筛选)。靶标识别可以在体外进行,但近年来也开发了各种计算机模拟方法,以促进靶标识别并帮助产生想法。FastTargetPred 就是这样一种方法,它是一个免费的 Python/C 程序,它尝试使用已建立的化学相似性搜索方法预测单个输入小分子查询或整个化合物集合的假定大分子靶标(即靶标钓鱼)。事实上,小化合物的假定大分子靶标可以通过识别来预测。
图 1. 安全药理学结果与基于文献的资源。A) SPD 的 AC50 值按 AC50 范围分布,其中高活性结果表示为 AC50 < 0.1 µM,非活性结果表示为 AC50 ≥ 10 µM。药物测定对与包含从生物医学文献中整理的结果的资源交叉引用:DrugCentral AC50 < 10 µM(蓝色)、ChEMBL AC50 < 10 µM(红色)、订阅资源 AC50 < 10 µM(黄色),或 ChEMBL 或订阅资源中单一浓度活性 > 50%(绿色)。资源按层次标记,即 DrugCentral 中报告的活性大多可在 ChEMBL 和其他资源中找到。B) 5106 个药物测定对的中位 ChEMBL 与 SPD AC50 值的定性比较;带有 AC50 限定符 '>'(AC50 大于测试的最大浓度)的 SPD 结果显示为 ≥ 10 µM;C)对 2700 个药物测定对的 ChEMBL 中值与 SPD AC50 值进行定量比较,其中 SPD AC50 限定符为 '='(即可测量活性);Pearson R 2 = 0.48。
SARS-CoV-2 3CLpro 蛋白是 COVID-19 的主要治疗靶点之一,因为它在病毒复制中起着关键作用,具有各种高质量的蛋白质晶体结构,并可作为计算筛选具有改进的抑制活性、生物利用度和 ADMETox 特性的化合物的基础。ChEMBL 和 PubChem 数据库包含筛选针对 SARS-CoV-2 3CLpro 的小分子的实验数据,这扩大了学习模式和设计计算模型的机会,该模型可以在体外和体内测试之前预测任何药物化合物对抗冠状病毒的效力。在这项研究中,我们利用几个描述符评估了 27 个机器学习分类器。我们还开发了一个神经网络模型,该模型可以在 CheMBL 数据上以 91% 的准确率正确识别生物活性和非活性化学物质,在 CheMBL 和 Pubchem 的组合数据上以 93% 的准确率正确识别生物活性和非活性化学物质。非活性和活性化合物的 F1 分数分别为 93% 和 94%。在 XGB 分类器上使用 SHAP (SHapley Additive exPlanations) 从 PaDEL 描述符中找出此任务的重要指纹。结果表明,PaDEL 描述符在预测生物活性方面是有效的,所提出的神经网络设计是有效的,并且通过 SHAP 的解释因子正确地识别了重要的指纹。此外,我们使用包含超过 100,000 个分子的大型数据集验证了我们提出的模型的有效性。本研究采用了各种分子描述符来发现最适合此任务的描述符。为了评估这些可能的药物对抗 SARS-CoV-2 的有效性,需要进行更多的体外和体内研究。
目前,化合物和生物活性数据库(如 ChEMBL 3 和 PubChem 4 合计)中共有超过 9000 万条候选药物化合物记录,而整个“类药物”化学空间的大小估计约为 1060。5 另一方面,根据 DrugBank 的数据,目前的药物数量(FDA 批准或处于实验阶段)约为 10000 种。6 此外,在人类蛋白质组的 20000 种蛋白质中,已知药物的靶标不到 3000 种。7,8 统计数据表明,目前对药物-靶标空间的了解有限,需要新的方法来拓宽我们的知识。有关药物-靶标相互作用 (DTI) 自动预测的信息、基于机器学习 (ML) 的 DTI 预测中的描述符和特征工程,以及基于新型深度学习 (DL) 的
背景:生物医学转化科学越来越多地利用大型结构化知识库(如统一医学语言系统 (UMLS)、语义医学数据库 (SemMedDB)、ChEMBL、DrugBank 和小分子途径数据库 (SMPDB))和数据的计算推理,以促进发现新的治疗目标和治疗方式。自 2016 年以来,NCATS 生物医学数据翻译器项目一直致力于在分布式系统内联合自主推理代理和知识提供者,以回答转化问题。在该项目内以及更广泛的领域内,迫切需要一个开源框架,可以有效且可重复地构建一个集成的、符合标准的、全面的生物医学知识图谱,该图谱可以以标准序列化形式下载或通过符合 FAIR 数据原则的公共应用程序编程接口 (API) 进行查询。
图 S1 。一般工作流程。左侧:使用小型数据集进行 TL 以聚焦 Prior(生成模型)的状态,随后将其用于具有自定义 MPO 目标的 RL。右侧:对生成模型的不同状态进行采样时化合物分布的示意图。A ) 一般 Prior 是在 ChEMBL 上训练的初始生成模型的状态。与其他状态相比,它生成给定 SMILES 字符串的概率分布更均匀。B ) 聚焦先验是生成模型的一种状态,在该状态下,它可以以比其他区域更高的概率生成某些化学空间区域。C ) 生成模型作为聚焦先验进入 RL,并在整个过程中导航化学空间以寻找高 MPO 分数区域。导航过程中获取的数据属于 MPO 得分较高的区域,可作为新颖想法的来源。
摘要:宿主免疫系统的稳态受到白细胞的调节,具有各种细胞表面受体用于细胞因子。趋化性细胞因子(趋化因子)激活其受体,以唤起稳态迁移或朝向炎症组织或病原体的炎症条件下免疫细胞的趋化性。免疫系统的失调导致疾病,例如过敏,自身免疫性疾病或癌症,需要有效,快速作用的药物,以最大程度地减少慢性炎症的长期影响。 在这里,我们进行了基于结构的虚拟筛选(SBV),并由Keras/Tensorflow神经网络(NN)辅助使用,以发现作用于三种趋化因子受体的新型化合物支架:CCR2,CCR3和一个CXC受体CXCR3。 keras/tensorflow nn在此使用不作为典型使用的二进制分类器,而是作为有效的多级分类器,不仅可以丢弃非活性化合物,还可以丢弃低或中等活性化合物。 在100 ns全原子分子动力学中测试了SBV和NN提出的几种化合物,以确认其结合效率。 为了改善化合物的基本结合功能,提出了新的化学修饰。 将修饰的化合物与这三种趋化因子受体的已知拮抗剂进行了比较。 已知的CXCR3化合物是最受预测的化合物之一。因此,除了基于结构的方法外,还显示了在药物发现中使用KERAS/Tensorflow的好处。 此外,我们表明KERAS/Tensorflow NN可以准确预测化合物的受体亚型选择性,SBV通常会失败。导致疾病,例如过敏,自身免疫性疾病或癌症,需要有效,快速作用的药物,以最大程度地减少慢性炎症的长期影响。在这里,我们进行了基于结构的虚拟筛选(SBV),并由Keras/Tensorflow神经网络(NN)辅助使用,以发现作用于三种趋化因子受体的新型化合物支架:CCR2,CCR3和一个CXC受体CXCR3。keras/tensorflow nn在此使用不作为典型使用的二进制分类器,而是作为有效的多级分类器,不仅可以丢弃非活性化合物,还可以丢弃低或中等活性化合物。在100 ns全原子分子动力学中测试了SBV和NN提出的几种化合物,以确认其结合效率。为了改善化合物的基本结合功能,提出了新的化学修饰。将修饰的化合物与这三种趋化因子受体的已知拮抗剂进行了比较。已知的CXCR3化合物是最受预测的化合物之一。因此,除了基于结构的方法外,还显示了在药物发现中使用KERAS/Tensorflow的好处。此外,我们表明KERAS/Tensorflow NN可以准确预测化合物的受体亚型选择性,SBV通常会失败。我们从Chembl和策划数据集检索到大麻素受体的跨测试趋化因子受体数据集。在从Chembl检索的大麻素受体数据集上训练的NN模型是受体亚型选择性预测中最准确的。在趋化因子受体数据集训练的NN模型中,CXCR3模型在区分给定化合物数据集的受体亚型方面表现出最高的精度。
摘要:宿主免疫系统的体内平衡受白细胞的调节,其中有8种细胞表面受体用于细胞因子。趋化性细胞因子(趋化因子)激活其受体9,以唤起稳态迁移或炎症条件下的免疫细胞的趋化性,即炎症组织或病原体。免疫系统的失调导致11种疾病,例如过敏,自身免疫性疾病或癌症,需要有效,快速作用的药物,以最大程度地减少慢性炎症的12种长期影响。在这里,我们进行了基于结构的虚拟筛选13(SBV),由KERAS/Tensorflow神经网络(NN)辅助,以查找在三个趋化因子受体上作用的新型化合物支架14:CCR2,CCR3和一个CXC受体CXCR3。keras/tensorflow 15 nn在这里不是用作典型使用的二进制分类器,而是作为有效的多级分类器16,不仅可以丢弃非活性化合物,而且还可以丢弃低或中等活性化合物。在100 ns全原子分子动力学中测试了SBV和NN提出的几种化合物,以确认其结合亲和力。为改善化合物的基本结合亲和力,提出了新的19种化学修饰。将修饰的化合物与这三个趋化因子受体的已知20个雄鹿主义者进行了比较。已知的CXCR3是预测的21磅,因此在基于结构的方法中显示了在药物发现中使用Keras/Tensorflow的好处。此外,我们表明KERAS/Tensorflow NN可以预测化合物的受体亚型选择性,SBV通常会失败。我们跨越了24个测试的趋化因子受体数据集,这些数据集从Chembl和策划的大麻素25受体中策划的数据集获取,网址为:http://db-gpcr-chem.uw.edu.pl。在从Chembl检索的大麻素26受体数据集上训练的NN模型是受体亚型选择性27预测中最准确的。在趋化因子受体数据集训练的NN模型中,CXCR3模型28在区分给定化合物数据集的受体亚型方面表现出最高的精度。29
(IC50) 值是从欧洲化学分子生物学实验室 (CHEMBL) 数据库中检索到的。18 下载数据后,我们过滤掉缺少 IC50 值的 SMILES 条目,只保留以纳摩尔 (nM) 为单位测量的生物活性条目,并删除重复的分子,得到 744 个数据点。由于 IC50 值的尺度各不相同,它们被转换成相应的负对数,称为 pIC50 值。此阶段使用 P zer 规则,也称为 Lipinski 五规则 (RO5),根据药物相似性过滤数据。19,20 满足大多数 Ro5 参数并不能确保化合物会成为药物;它仅表示药物相似性并有助于在临床前阶段淘汰较弱的化合物。我们使用应用 RO5 过滤器后剩余的 659 个数据点来训练模型。图 2 显示了数据集中 RO5 域内或域外的化合物的蜘蛛图。
摘要:相似的药物分子通常具有相似的特性和活性。因此,量化分子相似性对于药物发现和优化至关重要。在这里,我回顾了我所在跨学科网络 NCCR TransCure 内开发的使用分子相似性测量的计算方法,该网络研究离子通道和膜转运蛋白的生理学、结构生物学和药理学。我们设计了一种 3D 分子形状和药效团比较算法,通过骨架跳跃优化弱和非选择性抑制剂,并发现了离子通道 TRPV6 和 TRPM4、内源性大麻素膜转运以及二价金属转运蛋白 DMT1 和 ZIP8 的强效和选择性抑制剂。我们通过将不同分子指纹的分子相似性搜索与 ChEMBL 数据库中的靶标注释化合物相结合来预测脱靶效应。最后,我们创建了反映分子相似性的交互式化学空间图,以方便筛选化合物的选择和筛选结果的分析。这些不同的工具可在线获取,网址为 https://gdb.unibe.ch/tools/。