摘要 — 在本研究中,我们介绍了我们参与 BioCreative VII 挑战赛的 DrugProt 任务的工作。药物-靶标相互作用 (DTI) 对于药物发现和重新利用至关重要,通常是从实验文章中手动提取的。PubMed 上有超过 3200 万篇生物医学文章,从如此庞大的知识库中手动提取 DTI 具有挑战性。为了解决这个问题,我们为 Track 1 提供了一个解决方案,旨在提取药物和蛋白质实体之间的 10 种相互作用。我们应用了一个集成分类器模型,该模型结合了最先进的语言模型 BioMed-RoBERTa 和卷积神经网络 (CNN) 来提取这些关系。尽管 BioCreative VII DrugProt 测试语料库中存在类别不平衡,但与挑战赛中其他提交的平均水平相比,我们的模型取得了良好的表现,微 F1 得分为 55.67%(BioCreative VI ChemProt 测试语料库为 63%)。结果显示了深度学习在提取各种类型 DTI 方面的潜力。
药物目标相互作用(DTI)在药物发现中起着关键作用,因为它旨在识别潜在的药物靶标并阐明其作用机理。近年来,自然语言处理(NLP)的应用,尤其是与预训练的语言模型相结合时,已经在生物医学领域中获得了相当大的势头,并有可能开采大量文本以促进DTIS从文献中有效提取。在本文中,我们将DTI的任务作为实体关系提取问题,利用不同的预训练的变压器语言模型(例如BERT)提取DTI。我们的结果表明,通过将来自Entrez基因数据库的基因描述与比较毒理基因组学数据库(CTD)的化学描述相结合,对于实现最佳性能至关重要。所提出的模型在隐藏的药品测试集中达到了80.6的F1得分,这是官方评估中所有提交模型中排名最高的性能。此外,我们进行了比较分析,以评估来自Entrez基因和Uniprot数据库的各种基因文本描述的有效性,以了解其对性能的影响。我们的发现突出了使用基因和化学描述来改善药物目标提取任务的基于NLP的文本挖掘的潜力。