亲爱的编辑: 在中药现代化中,确定草药中的有效成分和阐明有效成分与靶标之间的作用机制是两个关键方面。建立一个全面且高可靠性的中药数据库是非常可取的。我们的 TCM Database@Taiwan1 自 2011 年成立以来,已被广泛使用和大量引用,并且还被收录到 ZINC 数据库 2 中。我们使用自然语言处理,建立了知识图谱和分子信号传导通路来建立中药数据库 TCMBank ( https://TCMBank.cn/ ),它从 TCM Database@Taiwan 扩展而来,包括 9192 种草药、61,966 种成分、15,179 个靶标和 32,529 种疾病。更新后的中药库将中药成分数量由32,364种扩充至61,966种(非重复),并增加了靶点和疾病两个新数据字段。具有连接信息的中药数量为9010种,中药平均连接边数为16.05。具有连接信息的成分数量为54,676种,中药平均连接边数为5.26。TCMBank以mol2格式提供中药成分的三维结构,并提供与外部公共数据库的交叉引用链接,如CAS、DrugBank、PubChem、MeSH、OMIM、DO、ETCM、3 HERB、4等。目前,TCMBank是最全面、可下载、最大的非商业中药数据库,TCMBank与其他中药相关数据库的数据规模比较见图1 a。中西药库提供了一个方便的用户自由探索草药、成分、基因靶点与相关途径或疾病之间的关系的网站(图1b)。图1c展示了中西药库的建立流程,包括文本挖掘策略、智能文档识别模块等。所有与中药相关的信息必须经过志愿者至少两次的人工验证,以确保中西药库数据的可靠性。中西药之间的不良反应会导致医疗费用增加,甚至死亡。据估计,超过10%的患者需要同时服用五种药物,20%的老年患者需要同时服用至少十种药物,这大大增加了中西药互斥带来的医疗风险。中西药互斥反应的鉴别在临床上主要依靠生化分析。然而,这个过程非常耗费人力和物力。基于人工智能的中西药互斥预测需要大量带有不良反应标签的中西药配对。目前中西药互斥数据集尚不完善,而目前有两个现实世界的公共药物相互作用(DDI)数据集:DrugBank 和 TWOSIDES。在前期工作中,我们首先提出了两个模型,3DGT-DDI 5 和 SA-DDI, 6 在 DDI 数据集上预测两种化合物之间的相互作用。
摘要背景:中西药联用增加了所摄入化合物的复杂性。目的:利用人工智能方法开发一种基于化学结构的中西药肝毒性化合物筛选方法。方法:从公开数据库和发表的文献中收集药物性肝损伤(DILI)数据。将DILI数据形成的整个数据集以大约3:1的比例随机分为训练集和测试集。采用SGD(随机梯度下降)、kNN(k最近邻)、SVM(支持向量机)、NB(朴素贝叶斯)、DT(决策树)、RF(随机森林)、ANN(人工神经网络)、AdaBoost、LR(逻辑回归)和一种深度学习模型(深度信念网络,DBN)构建肝毒性化合物筛选模型。结果:本研究共收集了2035个肝毒性化合物数据集,其中1505个化合物作为训练集,530个化合物作为测试集。结果表明,RF在训练集上的分类准确率(CA)为0.838,F1-score为0.827,Precision为0.832,Recall为0.838,曲线下面积(AUC)为0.814;在测试集上的分类准确率(CA)为0.767,F1为0.731,Precision为0.739,Recall为0.767,AUC为0.739,优于其他8种机器学习方法。DBN在测试集上的分类准确率为82.2%,高于其他任何机器学习模型。