摘要:在药物发现过程中,确定最佳候选药物非常重要。生物学和计算科学领域的研究人员一直试图利用机器学习 (ML) 来有效预测药物-靶标相互作用 (DTI)。近年来,根据预训练模型在自然语言处理 (NLP) 中的新兴用途,人们正在为化合物和靶蛋白开发预训练模型。本研究试图使用 Transformers (BERT) 预训练模型 ChemBERTa 来改进化合物的 DTI 预测模型。预训练的特点是使用简化的分子输入线路输入系统 (SMILES)。我们还使用预训练的 ProBERT 来预测靶蛋白(预训练使用氨基酸序列)。BIOSNAP、DAVIS 和 BindingDB 数据库 (DB) 被用于(单独或一起)学习。最终模型由 ChemBERTa 和 ProtBert 以及集成的 DB 共同教授,与之前的模型相比,根据受试者工作特征曲线下面积 (AUC) 和精确召回率-AUC 值,提供了迄今为止最佳的 DTI 预测性能。使用对 13 对底物和代谢酶细胞色素 P450 (CYP) 的特定案例研究验证了最终模型的性能。最终模型提供了出色的 DTI 预测。由于药物和靶蛋白之间的现实世界相互作用预计会表现出特定的模式,因此使用 ChemBERTa 和 ProtBert 进行预训练可以教授此类模式。如果学习采用涵盖药物和靶蛋白之间所有关系的大型、均衡的数据集,学习此类相互作用的模式将提高 DTI 准确性。
摘要 - 当两种或多种混合使用的药物会引起不良副作用时,即使使用药物单独使用不会造成伤害时,多药的问题也会引起不利的副作用。药物相互作用(DDIS)是这些反应的主要原因,导致发病率和死亡率增加。由于有害DDI的潜力呈指数增长,因此药物相互作用的预测对于患者的安全和有效的医疗保健管理越来越重要。在本文中,我们开发了Chembertaddi框架,该框架有效地结合了临床域数据,以单副作用特征表示,其富集化学分子表示,该化学分子表示源自Chemberta-77m-MLM,这是一个基于变压器的LAN- lan- gage模型。与五种最先进的方法相比,在基准数据集上进行的实验表现出色:decagon,deepwalk,dedicom,nnps和recrecal。评估表明,Chembertaddi的F1得分为0.94,AUROC为0.97,表现优于基线体系结构,并推广到新的引入的药物化合物。索引术语 - 转化,自然语言处理,分子表示学习,药物 - 药物相互作用,多药,Chemberta,神经网络,深度学习,注意机制,生物信息学