脚手架(1)生成bemis-murcko脚手架22均具有rdkit(Murckoscaffold.getScaffoldormol)的所有化合物的22脚手架(所有原子转化为碳原子,所有键,所有键)分子量(1)使用RDKIT(RDMOLDESCRIPTORS.CALCEXACTMOLWT)计算每种化合物的分子量(2)通过分子重量(3)分配摩尔重量(3)为OOD的重量(3)分类化合物,以将80%(最高重量)分配给OOD级别(最高重量),以将80%(最高的重量)分配给Rebore solec s Molec(最高重量)重量分裂,仅在步骤3中,将Botm-Tom 20%(最低权重)分配给OOD测试集,并将其余的80%分配给ID数据集分子分子分子logp(1)使用RDKIT(Descriptors.mollogp.mollogp)计算每种化合物的clogp(2)clogp值(2)将clogp值(3)分配给最高clogp and clogp值(3),并将clogp-emean(3)分配给最高的clogp clogp,并将clogp值(3)分配给最高的clogp clogp值(3)聚类(1)生成ECFP指纹(半径= 2,2048位)
1。Dolgikh E等。QSAR模型的脑对铂分隔系数,KP,UU,大脑:将P-糖蛋白外排纳入变量。2016。2。Friden M等。 使用大脑和脑脊髓液中未结合药物浓度的新型数据集的大鼠和人类结构 - 脑暴露关系。 2009。 3。 Pedregosa F等; Scikit-Learn:Python中的机器学习。 2011。 4。 rdkit:开源化学信息学; http://www.rdkit.orgFriden M等。使用大脑和脑脊髓液中未结合药物浓度的新型数据集的大鼠和人类结构 - 脑暴露关系。2009。3。Pedregosa F等; Scikit-Learn:Python中的机器学习。2011。4。rdkit:开源化学信息学; http://www.rdkit.org
表S2:从209个RDKIT描述符中选择功能选择,用于预测聚合物的光节间隙以及XGBoost模型的性能指标,该模型的性能指标训练了具有成对Pearson相关系数(P对)的不同组合的descriptors(P对)的组合,并且与光带差距有关(P GAP)(P GAP)。粗体表示P对和P间隙值的最佳组合。RMSE和MAE以EV测量。
有效绕过血脑屏障 (BBB) 是开发针对中枢神经系统的药物的主要障碍。虽然有几种方法可以确定小分子的 BBB 通透性,但平行人工膜通透性测定 (PAMPA) 是药物发现中最常见的测定方法之一,因为它具有稳健和高通量的特性。药物发现是一项长期且昂贵的事业,因此,任何简化此过程的进展都是有益的。在这项研究中,在 PAMPA-BBB 测定中筛选了来自 60 多个 NCATS 项目的约 2,000 种化合物,以开发定量结构-活性关系模型来预测小分子的 BBB 通透性。在分析了最先进和最新的机器学习方法之后,我们发现基于 RDKit 描述符作为附加特征的随机森林提供了最佳的训练平衡准确度 (0.70 ± 0.015),而使用 RDKit 描述符的图卷积神经网络的消息传递变体在前瞻性验证集上提供了最高的平衡准确度 (0.72)。最后,我们将体外 PAMPA-BBB 数据与啮齿动物体内脑渗透数据相关联,观察到 77% 的分类相关性,这表明使用 PAMPA-BBB 数据开发的模型可以预测体内脑渗透性。鉴于大多数先前研究依赖体外或体内数据来评估 BBB 渗透性,我们使用迄今为止最大的 PAMPA-BBB 数据集开发的模型提供了一种正交方法来估计小分子的 BBB 渗透性。我们将部分数据存入 PubChem 生物测定数据库 (AID: 1845228),并在 NCATS 开放数据 ADME 门户 (https://opendata.ncats.nih.gov/adme/) 上部署了性能最佳的模型。这些举措旨在为药物研发界提供宝贵的资源。
Alfaxalone Covey Lab(Tesic等,2020)Ganaxolone Covevey Lab(Hogenkamp等,1997)3α5βPCCovevee Lab(Mennerick等,2001)CDNC24 COVEN COVEY LAB(TESIC等,2020)ECN COVEY LAB(TODOROV LAB) B372 Covey Lab(Han等,1996)MQ34 Covey Lab(Qian等,2014)MQ35 Covey Lab(Qian等,2014)MQ2221 Covey Lab(Ziolkowski et al。,2020) https://www.rdkit.org/ chemdraw 22.2.0 GraphPad Prism 10.4.0数据库药物重新利用中心
我们提出了一种用于使用反应微笑来计算化学反应的原子经济算法的实施。Python编程用于连接RDKIT库来解析和解释化学结构,从而提供准确有效的化学可持续性计算。通过实施强大的算法来处理化学计量系数和多种反应,该方法对原子经济进行了全面的分析,这是绿色化学实践必不可少的指标。此外,这种计算方法可以轻松地集成到产生大量化学反应的AI应用中,作为筛选和优化步骤,进一步增强了可持续化学过程设计的潜力。我们通过几个案例研究证明了它的应用,强调了其有助于设计更可持续的化学过程的潜力。我们使用阿司匹林及其多个合成路线证明了这种方法。
1。Xu Y,Chiang YH,HO PC,Vannini N:线粒体决定HSC和T细胞的功能和命运。2023 CANCAR IMMUNOL RES 2。Girotra M, Chiang YH, Charmoy M, Ginefra P, Hope HC, Bataclan C, Yu YR, Schyrr F, Franco F, Geiger H, Cherix S, Ho PC, Naveiras O, Auwerx J, Held W, Vannini N: Induction of mitochondrial recycling reverts age-associated decline of the hematopoietic and immune系统。2023 NAT老化3。Wilkinson AC,Ishida R,Nakauchi H,Yamazaki S:小鼠造血干细胞的长期离体扩张。 2020 NAT ProtoC 4。 Wang Y,Backman TWH,Horan K,Girke T:FMCSR:不匹配的最大最大常见子结构搜索R. 2013 Bioinformatics 5。 Hennig C:_FPC:clustering_的灵活过程。 2024 cran.r- project.org/package=fpc 6。 Maechler,M.,Rousseeuw,P.,Struyf,A.,Hubert,M.,Hornik,K:集群:聚类分析基础知识和扩展。 2023 cran.r-project.org/package=cluster 7。 Ritz,C.,Baty,F.,Streibig,J.C.,Gerhard,D:使用R 2015 PLOS ONE 8。的剂量反应分析 Landrum G等人:RDKIT:开源化学信息学。 2024 doi.org/10.5281/zenodo.591637Wilkinson AC,Ishida R,Nakauchi H,Yamazaki S:小鼠造血干细胞的长期离体扩张。2020 NAT ProtoC 4。Wang Y,Backman TWH,Horan K,Girke T:FMCSR:不匹配的最大最大常见子结构搜索R. 2013 Bioinformatics 5。Hennig C:_FPC:clustering_的灵活过程。2024 cran.r- project.org/package=fpc 6。Maechler,M.,Rousseeuw,P.,Struyf,A.,Hubert,M.,Hornik,K:集群:聚类分析基础知识和扩展。2023 cran.r-project.org/package=cluster 7。Ritz,C.,Baty,F.,Streibig,J.C.,Gerhard,D:使用R 2015 PLOS ONE 8。Landrum G等人:RDKIT:开源化学信息学。2024 doi.org/10.5281/zenodo.591637
有机阴离子运输多肽(OATP)对于肝药物摄取至关重要,影响了药物疗效和毒性。预测OATP介导的药物相互作用(DDIS)由于结构性数据有限和整个研究的实验性OATP抑制数据而具有挑战性。这项研究介绍了异质的OATP-rigand相互作用图神经网络(HOLI-GNN),这是一种新型的计算方法,将分子建模与图神经网络相结合,以增强OATP介导的药物抑制的预测。通过将配体分子特征与蛋白质配体相互作用数据相结合,Holi-GNN的表现优于传统的基于配体的方法。与基于ECFP和RDKIT的模型相比,HOLI-GNN的中位数F1和AUC得分分别为0.78和0.90,分别基于XGBoost(F1:0.68和0.78; AUC:0.70和0.75)。除了改善抑制预测之外,我们还表征了与抑制性药物相互作用相对于非抑制性药物相互作用的蛋白质残基,特别是突出了残基T42,F224,I353,F356和F386。我们推测这些疏水堆积残基或抑制作用的局部位置可能是竞争性抑制机制的重要方面。我们的模型增强了OATP抑制剂预测的性能,并批判性地提供了可解释的交互信息,以告知未来的机械调查。
卷积神经网络13证明了蛋白质序列可以在DTI预测中提供有用的信息。Mahmud等人开发了iDTi-CSsmoteB网络服务器,使用XGBoost和过采样技术,基于PubChem指纹和各种蛋白质序列特征预测DTI。14然而,上述方法的数据质量并不令人满意,因为阴性数据是任意选择的。其他几项研究也这样做了。15-17其中一些使用随机非阳性DTI作为阴性样本。然而,非阳性DTI并不一定是阴性的,因为它们还没有经过验证。其中一些在验证后可能是阳性的。因此,使用高质量数据构建预测模型具有重要意义。在本研究中,我们开发了一个机器学习模型,使用化学结构和蛋白质序列作为特征来预测DTI。采用流水线技术封装特征数据标准化、SMOTE采样过程和机器学习估计器,以避免过度拟合并提高模型泛化能力。整个工作流程如图1所示。简而言之,从各种来源收集了超过40 000个具有解离常数(kd)值的DTI。用PaDEL-Descriptor和RDKit计算五种分子指纹和描述符。通过PSI-Blast和POSSUM工具包提取蛋白质序列特征。用5种机器学习方法和6种特征表示方法建立了30个DTI预测模型,其中Morgan-PSSM-SVM模型(MPSM-DTI)被验证为最佳模型。在案例研究中,MPSM-DTI模型在DTI预测中表现出了令人满意的能力。