研究小组成员包括 Greta Boye、Olivier Cadot、Ian Christie、Elizabeth Crompton、Philippe Hein、Ronald Kopicki、Michael Lane、Christiane Leong、Jan-Erik Van Leeuven、Jaime de Melo(代表团团长)、John Nasir、Alessandro Nicita、John Paton、Patricia Rajeriarison、Olivier Rajonson、Luc Razafimandimby、Armit Sharma 和 Wendy Takacs。该报告大量参考了联合国开发计划署 (UNDP) 编写的一系列背景报告以及国际贸易委员会和联合国工业发展组织 (UNIDO) 编写的报告。
准确识别药物靶标相互作用(DTI)对于理解药物治疗机制、发现治疗疾病的新药物具有重要意义。目前,结合药物和靶标多源数据的DTI预测计算方法可以有效降低药物研发的成本和时间。但在多源数据处理中,往往不考虑不同源数据对DTI的贡献,因此如何充分利用不同源数据对DTI预测的贡献进行有效融合是提高DTI预测精度的关键。本文考虑不同源数据对DTI预测的贡献,提出一种基于药物和靶标多源数据有效融合的DTI预测方法,即EFMSDTI。EFMSDTI首先基于多源信息网络构建15个相似度网络,根据药物和靶标的生物学特征将其分类为药物和靶标的拓扑和语义图。然后根据多网络对DTIs预测的贡献,采用基于相似性网络融合(SNF)的选择性和熵加权方法对多网络进行融合。深度神经网络模型学习药物和靶标的低维向量的嵌入。最后,采用基于梯度提升决策树(GBDT)的LightGBM算法完成DTIs预测。实验结果表明,EFMSDTI比几种最先进的算法具有更好的性能(AUROC和AUPR为0.982)。此外,它在分析前1000个预测结果方面具有良好的效果,而前1000个DTI中有990个得到了确认。代码和数据可在https://github.com/meng-jie/EFMSDTI获得。
通过计算方法识别药物-靶标相互作用 (DTI) 是加速药物开发和了解小分子作用机制的可靠策略。然而,目前预测 DTI 的方法主要集中于识别简单的相互作用,需要进一步的实验来了解药物的作用机制。在这里,我们提出了 AI-DTI,这是一种通过结合 mol2vec 和遗传扰动的转录组来预测激活和抑制 DTI 的新方法。我们在具有 MoA 的大规模 DTI 上训练了该模型,发现我们的模型优于之前预测激活和抑制 DTI 的模型。目标特征向量的数据增强使该模型能够预测广泛可用药靶标的 DTI。我们的方法在训练集中未见靶标的独立数据集和明确定义阳性和阴性样本的高通量筛选数据集中取得了显著的性能。此外,我们的方法成功地重新发现了用于治疗 COVID-19 的药物的大约一半的 DTI。这些结果表明,AI-DTI 是一种实用的工具,可以指导药物发现过程并产生合理的假设,从而揭示未知的药物作用机制。
背景:在当前的 COVID-19 大流行中,由于缺乏批准的药物和可广泛获得的疫苗,重新利用现有药物对于快速开发治疗该疾病的方法至关重要。方法:在本研究中,我们使用由病毒蛋白序列和药物化学结构组成的数据集,用于已知药物-靶标相互作用 (DTI) 和人工生成的非相互作用 DTI,以训练具有预测新 DTI 能力的二元分类器。测试了随机森林 (RF)、深度神经网络 (DNN) 和卷积神经网络 (CNN)。选择 CNN 和 RF 模型执行分类任务。结果:这些模型对给定的 DTI 数据具有很好的泛化能力,并用于预测涉及 SARS-CoV-2 非结构蛋白 (NSP) 的 DTI。我们(使用 CNN)阐明了涉及 82 种 DTI 的 29 种药物,相互作用的概率为 97%,其中 44 种 DTI 的相互作用概率为 99%,可用于治疗 COVID-19。 RF 阐明了涉及 17 种 DTI 的 6 种药物,相互作用的概率为 90%。结论:这些结果为病毒蛋白的可能抑制剂提供了新的见解,超越了最近研究中使用的药效团模型和分子对接程序。
卷积神经网络13证明了蛋白质序列可以在DTI预测中提供有用的信息。Mahmud等人开发了iDTi-CSsmoteB网络服务器,使用XGBoost和过采样技术,基于PubChem指纹和各种蛋白质序列特征预测DTI。14然而,上述方法的数据质量并不令人满意,因为阴性数据是任意选择的。其他几项研究也这样做了。15-17其中一些使用随机非阳性DTI作为阴性样本。然而,非阳性DTI并不一定是阴性的,因为它们还没有经过验证。其中一些在验证后可能是阳性的。因此,使用高质量数据构建预测模型具有重要意义。在本研究中,我们开发了一个机器学习模型,使用化学结构和蛋白质序列作为特征来预测DTI。采用流水线技术封装特征数据标准化、SMOTE采样过程和机器学习估计器,以避免过度拟合并提高模型泛化能力。整个工作流程如图1所示。简而言之,从各种来源收集了超过40 000个具有解离常数(kd)值的DTI。用PaDEL-Descriptor和RDKit计算五种分子指纹和描述符。通过PSI-Blast和POSSUM工具包提取蛋白质序列特征。用5种机器学习方法和6种特征表示方法建立了30个DTI预测模型,其中Morgan-PSSM-SVM模型(MPSM-DTI)被验证为最佳模型。在案例研究中,MPSM-DTI模型在DTI预测中表现出了令人满意的能力。
药物 - 靶相互作用(DTI)被认为是基因组药物发现的重要组成部分,DTI的计算预测可以加速到靶标的铅药物,这可以弥补缺乏耗时且昂贵的湿湿技术技术。当前,许多计算方法基于药物和靶标的顺序组成或理化特性来预测DTI,但是需要进一步的努力来改善它们。在本文中,我们提出了一种基于序列的新方法,以准确识别DTI。对于目标蛋白质,我们使用来自变压器(BERT)的预训练的双向编码器表示探索,以提取序列特征,这些序列特征可以提供独特而有价值的模式信息。对于药物分子,使用离散小波变换(DWT)来从药物分子纤维固定物中产生信息。然后,我们将DTI的特征向量加以连接,然后将它们输入由批处理层,矩阵线性激活层和线性层组成的特征提取模块,称为BRL块和称为卷积神经网络模块,以进一步提取DTIS。随后,将BRL块用作预测引擎。基于对比度损失和跨透明镜损失优化模型后,它给出了G蛋白偶联受体,离子通道,酶和核受体的靶族的预测准确性,最高为90.1、94.7、94.9和89%,这表明该建议的方法可以超过现有的预测者。提出的方法也可能是其他DIT的潜在选择。为了使研究人员尽可能方便,新预测器的Web服务器可自由访问:https://bioinfo.jcu.edu.edu.cn/dtibert或http://http://121.36.221.79/dtibert/。
Drug discovery is an academical and commercial process of global importance. Accurate identification of drug-target interactions (DTIs) can significantly facilitate the drug discovery process. Compared to the costly, labor-intensive and time-consuming experimental methods, machine learning (ML) plays an ever-increasingly important role in effective, efficient and high-throughput identification of DTIs. However, upstream feature extraction methods require tremendous human resources and expert insights, which limits the application of ML approaches. Inspired by the unsupervised representation learning methods like Word2vec, we here proposed SPVec, a novel way to automatically represent raw data such as SMILES strings and protein sequences into continuous, information-rich and lower-dimensional vectors, so as to avoid the sparseness and bit collisions from the cumbersomely manually extracted features. Visualization of SPVec nicely illustrated that the similar compounds or proteins occupy similar vector space, which indicated that SPVec not only encodes compound substructures or protein sequences efficiently, but also implicitly reveals some important biophysical and biochemical patterns. Compared with manually-designed features like MACCS fingerprints and amino acid composition (AAC), SPVec showed better performance with several state-of-art machine learning classifiers such as Gradient Boosting Decision Tree, Random Forest and Deep Neural Network on BindingDB. The performance and robustness of SPVec were also confirmed on independent test sets obtained from DrugBank database. Also, based on the whole DrugBank dataset, we predicted the possibilities of all unlabeled DTIs, where two of the top five predicted novel DTIs were supported by external evidences. These results indicated that SPVec can provide an effective and efficient way to discover reliable DTIs, which would be beneficial for drug reprofiling.
1 ONERA DTIS,图卢兹大学,图卢兹,法国;luis.basora@onera.fr (L.B.); paloma.bry@protonmail.com (P.B.); xavier.olive@onera.fr (X.O.)2 荷兰皇家航空公司,邮政信箱 7700,1117 ZL Schiphol,荷兰,Floris.Freeman@klm.com (F.F.)* 通信地址:luis.basora@onera.fr † 当前地址:2 avenue Édouard Belin, 31055 Toulouse CEDEX 4, France.‡ 这些作者对本作品的贡献相同。
摘要背景:药物-靶标相互作用预测(DTIs)对于加速药物研究和药物重新定位变得越来越重要。药物-靶标相互作用网络是DTIs预测的典型模型。由于药物和靶标之间存在许多不同类型的关系,药物-靶标相互作用网络可用于建模药物-靶标相互作用关系。近期关于药物-靶标相互作用网络的研究大多集中在药物节点或靶标节点上,而忽略了药物-靶标之间的关系。结果:提出了一种新的预测方法来独立地建模药物和靶标之间的关系。首先,我们利用药物和靶标的不同层次关系来构建药物-靶标相互作用的特征。然后,我们使用线图来建模药物-靶标相互作用。之后,我们引入图变换器网络来预测药物-靶标相互作用。结论:我们引入线图来建模药物与靶标之间的关系。将药物-靶标相互作用从链接转换为节点后,我们使用图变换器网络来完成药物-靶标相互作用预测任务。