药物目标相互作用(DTI)在药物发现中起着关键作用,因为它旨在识别潜在的药物靶标并阐明其作用机理。近年来,自然语言处理(NLP)的应用,尤其是与预训练的语言模型相结合时,已经在生物医学领域中获得了相当大的势头,并有可能开采大量文本以促进DTIS从文献中有效提取。在本文中,我们将DTI的任务作为实体关系提取问题,利用不同的预训练的变压器语言模型(例如BERT)提取DTI。我们的结果表明,通过将来自Entrez基因数据库的基因描述与比较毒理基因组学数据库(CTD)的化学描述相结合,对于实现最佳性能至关重要。所提出的模型在隐藏的药品测试集中达到了80.6的F1得分,这是官方评估中所有提交模型中排名最高的性能。此外,我们进行了比较分析,以评估来自Entrez基因和Uniprot数据库的各种基因文本描述的有效性,以了解其对性能的影响。我们的发现突出了使用基因和化学描述来改善药物目标提取任务的基于NLP的文本挖掘的潜力。
准确而稳健地预测药物-靶标相互作用 (DTI) 在药物发现中起着至关重要的作用。尽管人们在预测新型 DTI 方面投入了大量精力,但现有方法仍然存在标记数据不足和冷启动问题。更重要的是,目前缺乏阐明药物和靶标之间作用机制 (MoA) 的研究。区分激活和抑制机制对于药物开发至关重要且具有挑战性。在这里,我们介绍了一个称为 DTIAM 的统一框架,旨在预测药物和靶标之间的相互作用、结合亲和力以及激活/抑制机制。DTIAM 通过自监督的预训练从大量无标记数据中学习药物和靶标表示,从而准确提取药物和靶标的子结构和上下文信息,从而有利于基于这些表示的下游预测。DTIAM 在所有任务中都比其他最先进的方法实现了显着的性能提升,尤其是在冷启动场景中。此外,独立验证证明了 DTIAM 强大的泛化能力。所有这些结果表明,DTIAM 可以提供一种实用的工具来预测新型 DTI 并进一步区分候选药物的作用机理。DTIAM 首次提供了一个统一的框架,可以准确、稳健地预测药物-靶标相互作用、结合亲和力以及激活/抑制机制。
识别缺失的药物靶标对于治疗的开发和药物副作用的分子阐明至关重要。通过利用药物和蛋白质靶标的分子、生物学或药理学特征可以预测药物靶标。然而,开发用于预测药物靶标的综合且可解释的机器学习模型仍然是一项具有挑战性的任务。我们提出了 Inception,这是一种用于预测药物靶标的综合且可解释的矩阵完成模型。Inception 是一个自我表达模型,它学习两个相似性矩阵:一个用于药物,另一个用于蛋白质靶标。这些学习到的相似性矩阵是我们模型可解释性的关键:它们可以解释如何用化学、生物学和药理学相似性的线性组合来解释预测的药物-靶标相互作用。我们开发了一种具有有效闭式解的新型目标函数。为了证明 Inception 在恢复缺失的药物-靶标相互作用 (DTI) 方面的能力,我们进行了交叉验证实验,严格控制数据不平衡、药物之间的化学相似性和靶标之间的序列相似性。我们还使用模拟前瞻性方法评估了模型的性能。使用 DrugBank 数据库 2011 年快照中的 DTI 训练我们的模型后,我们测试是否可以预测 DrugBank 2020 年快照中的 DTI。在所有情况下,Inception 的表现都优于两种最先进的药物靶标预测模型。这表明 Inception 可用于预测缺失的药物靶标相互作用,同时提供可解释的预测。
在制药科学中,药物发现的一个关键步骤是识别药物-靶标相互作用 (DTI)。然而,只有一小部分 DTI 经过了实验验证。此外,通过传统的生化实验来捕捉药物和靶标之间的新相互作用是一个极其费力、昂贵且耗时的过程。因此,设计用于预测潜在相互作用的计算方法来指导实验验证具有实际意义,特别是对于从头情况。在本文中,我们提出了一种新算法,即拉普拉斯正则化的 Schatten p 范数最小化 (LRSpNM),用于预测新药物的潜在靶标蛋白和没有已知相互作用的新靶标的潜在药物。具体而言,我们首先利用药物和靶标相似性信息来动态地预填充部分未知的相互作用。然后基于相互作用矩阵低秩的假设,我们使用 Schatten p 范数最小化模型结合拉普拉斯正则化项来提高新药/新靶点案例的预测性能。最后,我们通过一种高效的交替方向乘子算法对 LRSpNM 模型进行数值求解。我们在五个数据集上评估了 LRSpNM,大量的数值实验表明 LRSpNM 比五种最先进的 DTI 预测算法具有更好、更稳健的性能。此外,我们对新药和新靶点预测进行了两个案例研究,这表明 LRSpNM 可以成功预测大多数经过实验验证的 DTI。
摘要 — 在本研究中,我们介绍了我们参与 BioCreative VII 挑战赛的 DrugProt 任务的工作。药物-靶标相互作用 (DTI) 对于药物发现和重新利用至关重要,通常是从实验文章中手动提取的。PubMed 上有超过 3200 万篇生物医学文章,从如此庞大的知识库中手动提取 DTI 具有挑战性。为了解决这个问题,我们为 Track 1 提供了一个解决方案,旨在提取药物和蛋白质实体之间的 10 种相互作用。我们应用了一个集成分类器模型,该模型结合了最先进的语言模型 BioMed-RoBERTa 和卷积神经网络 (CNN) 来提取这些关系。尽管 BioCreative VII DrugProt 测试语料库中存在类别不平衡,但与挑战赛中其他提交的平均水平相比,我们的模型取得了良好的表现,微 F1 得分为 55.67%(BioCreative VI ChemProt 测试语料库为 63%)。结果显示了深度学习在提取各种类型 DTI 方面的潜力。
摘要背景:药物-靶标相互作用 (DTI) 对于药物重新利用和阐明药物机制至关重要,它们收集在大型数据库中,例如 ChEMBL、BindingDB、DrugBank 和 DrugTargetCommons。然而,提供这些数据的研究数量(约 0.1 百万)可能仅占 PubMed 上包含实验性 DTI 数据的所有研究的一小部分。查找此类研究并提取实验信息是一项艰巨的任务,迫切需要机器学习来提取和管理 DTI。为此,我们开发了基于 Transformers 的双向编码器表示 (BERT) 算法的新型文本挖掘文档分类器。由于 DTI 数据与用于生成它的检测类型密切相关,因此我们还旨在合并函数来预测检测格式。结果:我们的新方法从以前未包含在公共 DTI 数据库中的 210 万项研究中识别和提取了 DTI。使用 10 倍交叉验证,我们获得了约 99% 的识别包含药物-靶标对的研究的准确率。检测格式预测的准确率约为 90%,这为未来的研究留下了改进的空间。结论:本研究中的 BERT 模型是稳健的,所提出的流程可用于识别包含 DTI 的新研究和以前被忽视的研究,并自动提取 DTI 数据点。表格输出有助于验证提取的数据和检测格式信息。总体而言,我们的方法在机器辅助 DTI 提取和管理方面取得了重大进步。我们希望它成为药物机制发现和再利用的有用补充。关键词:BERT、来自 Transformer 的双向编码器表示、用于生物医学数据的 BERT、药物靶标相互作用预测、挖掘药物靶标相互作用、生物医学文本挖掘、生物活性数据、药物再利用
1 上海交通大学微生物代谢国家重点实验室、生命科学与技术学院,上海 200240;2 深圳市南山区西丽街道万科云城一期 8 号楼鹏程实验室,518055;3 卡尔加里大学 摘要 识别药物-靶标相互作用 (DTI) 是药物发现和药物重新定位的重要步骤。为了降低大量的实验成本,蓬勃发展的机器学习已被应用于该领域并开发了许多计算方法,尤其是二元分类方法。然而,当前方法的性能仍有很大改进空间。多标签学习可以减少二元分类学习所面临的困难并具有较高的预测性能,并且尚未得到广泛探索。它面临的关键挑战是指数级的输出空间,考虑标签相关性可以帮助它。因此,我们通过引入用于 DTI 预测的社区检测方法 (称为 DTI-MLCD) 来促进多标签分类。另一方面,我们更新了2008年提出并沿用至今的金标准数据集。我们在更新前后的金标准数据集上执行了所提出的DTI-MLCD,结果表明它比其他经典机器学习方法和其他基准提出的方法更具优越性,证实了它的有效性。本研究的数据和代码可以在https://github.com/a96123155/DTI-MLCD找到。 关键词:药物-靶标相互作用,数据集更新,多标签学习,标签相关性,社区检测 1.引言 对于药物开发来说,药物发现(即发现潜在的新药)和药物重新定位(即获得具有新功效的旧药)是两个重要且成本高昂的策略[2],而实现它们的重要步骤就是预测DTI。近年来,许多研究将流行的机器学习技术应用于实现智能医疗,在一定程度上加速了药物开发的进程。对于DTIs预测,利用机器学习技术不仅可以缩小实验研究的实验范围,而且可以对实验研究起到指导作用。近年来有很多综述文章[3-7]总结了机器学习方法在DTIs预测领域的进展,二分类方法是其中一个重要分支。对于二分类方法
动机:预测可靠的药物-靶标相互作用 (DTI) 是计算机辅助药物设计和再利用中的一项关键任务。在这里,我们提出了一种基于数据融合的 DTI 预测新方法,该方法建立在 NXTfusion 库之上,通过将矩阵分解范式扩展到实体关系图上的非线性推理来推广它。结果:我们在五个数据集上对我们的方法进行了基准测试,并将我们的模型与最先进的方法进行了比较。我们的模型优于大多数现有方法,同时保留了预测 DTI 作为二元分类和实值药物-靶标亲和力回归的灵活性,可与为每个任务明确构建的模型相媲美。此外,我们的研究结果表明,DTI 方法的验证应该比之前一些研究中提出的更严格,更多地侧重于模拟真实的 DTI 设置,其中需要预测以前未见过的药物、蛋白质和药物-蛋白质对。这些设置正是将异构信息与我们的实体-关系数据融合方法集成的好处最明显的环境。
通讯作者:安吉勇 摘要:背景:预测新的药物-靶标相互作用(DTI)在发现新的候选药物和寻找新的靶标蛋白质中起着重要作用。考虑到实验方法耗时且昂贵。因此,如何开发有效的计算方法来准确预测药物和靶标之间的潜在关联是一项具有挑战性的任务。结果:在本文中,我们提出了一种基于药物指纹和蛋白质进化信息的新型计算方法WELM-SURF来识别DTI。更具体地说,为了利用蛋白质序列特征,应用位置特异性评分矩阵(PSSM)来捕获蛋白质进化信息,并使用加速机器人特征(SURF)从PSSM中提取序列关键特征。对于药物指纹,使用分子子结构指纹的化学结构来表示药物作为特征向量。考虑到加权极限学习机(WELM)具有训练时间短、泛化能力强以及最重要的是能够通过优化权重矩阵的损失函数有效地执行分类的优势。因此,采用WELM分类器对提取的特征进行分类以预测DTIs。通过五重交叉验证检验在酶、离子通道、GPCRs和核受体数据集上进行实验验证,评估了WELM-SURF模型的性能。WELM-SURF在酶、离子通道、GPCRs和核受体数据集上的平均准确率分别为93.54%、90.58%、85.43%和77.45%。我们还将其性能与极限学习机(ELM)、在酶和离子通道数据集上最先进的支持向量机(SVM)以及在四个数据集上的其他现有方法进行了比较。与实验结果相比,WELM-SURF的性能明显优于ELM、SVM和该领域的其他先前方法。结论:结果表明,所提出的WELM-SURF模型能够高精度、稳健地预测DTIs。预计 WELM - SURF 方法是一种有用的计算工具,可广泛促进与 DTI 预测相关的生物信息学研究。
阿卜杜拉国王科技大学 (KAUST),计算生物科学研究中心 (CBRC),沙特阿拉伯图瓦尔 vladimir.bajic@kaust.edu.sa 摘要 识别药物和蛋白质的相互作用是药物发现早期阶段和寻找新药用途的重要步骤。传统的实验识别和验证这些相互作用仍然耗时、昂贵,并且成功率不高。为了改进这种识别过程,开发计算方法以最小错误率预测和排序可能的药物-靶标相互作用 (DTI) 将大有帮助。在这项工作中,我们提出了一种使用图嵌入和图挖掘进行药物-靶标相互作用预测的计算方法 DTiGEM。DTiGEM 模型将新型 DTI 识别为通过整合三个网络构建的异构图中的链接预测问题,即:药物-药物相似性、靶标-靶标相似性和已知 DTI。 DTiGEM 结合了不同的技术,包括图嵌入(例如 node2vec)、图挖掘(例如药物和目标之间的路径得分)和机器学习(例如不同的分类器)。与其他最先进的方法相比,DTiGEM 在四个基准数据集上对 DTI 进行计算预测时,在精确召回曲线下面积 (AUPR) 方面的预测性能有所提高。具体而言,我们证明,基于所有基准数据集的平均 AUPR 得分,DTiGEM 实现了最高平均 AUPR 值 (0.831),从而相对于比较中表现第二好的方法将预测误差降低了 22.4%。