DrugBank 知识库的高度组织性和完整性也使 Prepaire Labs 能够在不到六个月的时间内为其两种药物从发现阶段转向申请专利阶段。
本节给出了实验结果。使用 Wang 等人提供的数据集对所提出的方法进行了评估。[25]。他们的数据收集了六个异构网络,包括药物-药物相互作用网络、蛋白质-蛋白质相互作用网络、药物-蛋白质相互作用网络、药物-疾病关联网络、蛋白质-疾病关联网络和药物副作用关联网络。药物-药物和蛋白质-蛋白质相互作用网络是从 Drugbank 版本 3.0 [26] 和 HPRD 数据库版本 9 [27] 中提取的。这些网络包括 708 个独特药物节点和 1512 个独特蛋白质节点。药物-药物和蛋白质-蛋白质相互作用网络包括 10036 和 7363 条边。药物-靶标相互作用网络是从 Drugbank 版本 3.0 [26] 中提取的,有 1923 条边。药物-疾病和蛋白质-
识别缺失的药物靶标对于治疗的开发和药物副作用的分子阐明至关重要。通过利用药物和蛋白质靶标的分子、生物学或药理学特征可以预测药物靶标。然而,开发用于预测药物靶标的综合且可解释的机器学习模型仍然是一项具有挑战性的任务。我们提出了 Inception,这是一种用于预测药物靶标的综合且可解释的矩阵完成模型。Inception 是一个自我表达模型,它学习两个相似性矩阵:一个用于药物,另一个用于蛋白质靶标。这些学习到的相似性矩阵是我们模型可解释性的关键:它们可以解释如何用化学、生物学和药理学相似性的线性组合来解释预测的药物-靶标相互作用。我们开发了一种具有有效闭式解的新型目标函数。为了证明 Inception 在恢复缺失的药物-靶标相互作用 (DTI) 方面的能力,我们进行了交叉验证实验,严格控制数据不平衡、药物之间的化学相似性和靶标之间的序列相似性。我们还使用模拟前瞻性方法评估了模型的性能。使用 DrugBank 数据库 2011 年快照中的 DTI 训练我们的模型后,我们测试是否可以预测 DrugBank 2020 年快照中的 DTI。在所有情况下,Inception 的表现都优于两种最先进的药物靶标预测模型。这表明 Inception 可用于预测缺失的药物靶标相互作用,同时提供可解释的预测。
Drug discovery is an academical and commercial process of global importance. Accurate identification of drug-target interactions (DTIs) can significantly facilitate the drug discovery process. Compared to the costly, labor-intensive and time-consuming experimental methods, machine learning (ML) plays an ever-increasingly important role in effective, efficient and high-throughput identification of DTIs. However, upstream feature extraction methods require tremendous human resources and expert insights, which limits the application of ML approaches. Inspired by the unsupervised representation learning methods like Word2vec, we here proposed SPVec, a novel way to automatically represent raw data such as SMILES strings and protein sequences into continuous, information-rich and lower-dimensional vectors, so as to avoid the sparseness and bit collisions from the cumbersomely manually extracted features. Visualization of SPVec nicely illustrated that the similar compounds or proteins occupy similar vector space, which indicated that SPVec not only encodes compound substructures or protein sequences efficiently, but also implicitly reveals some important biophysical and biochemical patterns. Compared with manually-designed features like MACCS fingerprints and amino acid composition (AAC), SPVec showed better performance with several state-of-art machine learning classifiers such as Gradient Boosting Decision Tree, Random Forest and Deep Neural Network on BindingDB. The performance and robustness of SPVec were also confirmed on independent test sets obtained from DrugBank database. Also, based on the whole DrugBank dataset, we predicted the possibilities of all unlabeled DTIs, where two of the top five predicted novel DTIs were supported by external evidences. These results indicated that SPVec can provide an effective and efficient way to discover reliable DTIs, which would be beneficial for drug reprofiling.
目前,化合物和生物活性数据库(如 ChEMBL 3 和 PubChem 4 合计)中共有超过 9000 万条候选药物化合物记录,而整个“类药物”化学空间的大小估计约为 1060。5 另一方面,根据 DrugBank 的数据,目前的药物数量(FDA 批准或处于实验阶段)约为 10000 种。6 此外,在人类蛋白质组的 20000 种蛋白质中,已知药物的靶标不到 3000 种。7,8 统计数据表明,目前对药物-靶标空间的了解有限,需要新的方法来拓宽我们的知识。有关药物-靶标相互作用 (DTI) 自动预测的信息、基于机器学习 (ML) 的 DTI 预测中的描述符和特征工程,以及基于新型深度学习 (DL) 的
背景:生物医学转化科学越来越多地利用大型结构化知识库(如统一医学语言系统 (UMLS)、语义医学数据库 (SemMedDB)、ChEMBL、DrugBank 和小分子途径数据库 (SMPDB))和数据的计算推理,以促进发现新的治疗目标和治疗方式。自 2016 年以来,NCATS 生物医学数据翻译器项目一直致力于在分布式系统内联合自主推理代理和知识提供者,以回答转化问题。在该项目内以及更广泛的领域内,迫切需要一个开源框架,可以有效且可重复地构建一个集成的、符合标准的、全面的生物医学知识图谱,该图谱可以以标准序列化形式下载或通过符合 FAIR 数据原则的公共应用程序编程接口 (API) 进行查询。
图 1:适应症来源和模型训练范式示意图 a) 适应症最初来自两个数据源,Wikidata 和 NCATS Inxight Drugs。Inxight Drugs 是一个数据聚合器,它汇编了来自多个来源的数据,包括 DrugBank 和 DrugCentral,从而产生了许多适应症。临床毒理基因组学数据库 (CTD) 包含超过 14,000 种适应症,全部来自文本挖掘,结果由人工确认。沿着化合物 - 治疗 - 疾病 - 逆子类 - 疾病路径的路径收缩总共产生 69,639 种适应症。b) 最初,20% 的已知适应症化合物被移除并放置在保留集中。剩余的 15% 的已知适应症化合物子集用于超参数调整和元路径选择。选定的 160 个元路径用于对不在保留集中的所有适应症进行模型训练,以验证模型。最后,所有迹象都被用来生成用于机械评估的最终模型。
图 1 药物再利用以有效治疗阿尔茨海默病 (DREAM) 研究设计。DREAM 研究的示意性工作流程。步骤 1:阿尔茨海默病 (AD) 是一种广泛的脑部代谢紊乱。对脑组织样本的靶向代谢组学和转录组学分析揭示了与 AD 中糖酵解异常相关的多种代谢途径失调。这些途径被认为是阿尔茨海默病异常代谢 (ADAM) 网络的组成部分(见图 2a),与 AD 病理的严重程度有关。步骤 2:生成假设:确定阿尔茨海默病和相关疾病 (ADRD) 的候选药物。GeneCards 和 DRUGBANK 等化学信息学数据库用于确定 ADAM 网络内生化反应的遗传调节剂(见图 2b)是否是已获批的非 ADRD 相关适应症药物的靶向药物。步骤 3:假设检验:对 ADRD 候选药物进行计算机验证。使用补充人群临床数据集(美国医疗保险和医疗补助服务中心;英国临床实践研究数据链)中的药物流行病学分析来测试 ADRD 候选治疗的疗效
背景:由于基因的区别,许多药物对每个人的工作方式都不相同。药物基因组学(PGX)旨在了解遗传变异如何影响药物疗效和毒性。通常被认为是个性化医学范式中最可行的领域之一。然而,几乎没有其他工作包括对药物使用,剂量调整等的深入探索和描述。目的:我们提出了一种药物基因组学知识模型,以发现PGX实体(例如药物,基因和疾病)之间的隐藏关系,尤其是精确药物的细节。方法:PGX开放数据,例如药品银行和RXNOM,以及美国食品药品监督管理局发表的药物标签。我们为实体和人际关系手动注释了190个药物标签。基于注释结果,我们培训了3种不同的自然语言处理模型以完成实体识别。最后,详细描述了药物基因组学知识模型。