动机:使用人类表型数据预测药物-靶标相互作用 (DTI) 有可能消除动物实验和人类临床结果之间的转化差距。人类表型驱动的 DTI 预测的一个挑战是整合和建模不同的药物和疾病表型关系。利用大量临床观察到的药物和疾病表型以及 7200 万患者的电子健康记录 (EHR),我们通过无缝结合 DTI 预测和临床证实,开发了一种新颖的集成计算药物发现方法。结果:我们通过建模 1430 种药物、4251 种副作用、1059 种疾病和 17860 个基因之间的 855904 种表型和遗传关系,开发了一个基于网络的 DTI 预测系统 (TargetPredict)。我们对 TargetPredict 进行了从头交叉验证系统评估,并将其与最先进的表型驱动的 DTI 预测方法进行了比较。我们应用 TargetPredict 来确定阿尔茨海默病 (AD) 的新型重新定位候选药物,阿尔茨海默病在美国影响了 580 多万人。我们使用超过 7200 万患者的 EHR 评估了顶级重新定位候选药物的临床有效率。当使用 910 种药物进行评估时,从头交叉验证中的受试者工作特征 (ROC) 曲线下面积为 0.97。TargetPredict 的表现优于最先进的表型驱动的 DTI 预测系统,这通过精确度-召回率曲线衡量[通过平均精确度 (MAP) 衡量:0.28 比 0.23,P 值 < 0.0001]。基于 EHR 的病例对照研究发现,处方中排名靠前的重新定位药物与 AD 诊断风险降低显著相关。例如,我们发现,利拉鲁肽(一种 2 型糖尿病药物)的处方与 AD 诊断风险降低显著相关 [调整后的优势比 (AOR):0.76;95% 置信区间 (CI) (0.70, 0.82),P 值 < 0.0001]。总之,我们的综合方法无缝结合了计算 DTI 预测和基于 EHR 的大规模患者临床确证,在快速识别复杂疾病的新药物靶点和候选药物方面具有很高的潜力。可用性和实施:nlp.case.edu/public/data/TargetPredict。联系方式:rxx@case.edu
摘要:在药物发现过程中,确定最佳候选药物非常重要。生物学和计算科学领域的研究人员一直试图利用机器学习 (ML) 来有效预测药物-靶标相互作用 (DTI)。近年来,根据预训练模型在自然语言处理 (NLP) 中的新兴用途,人们正在为化合物和靶蛋白开发预训练模型。本研究试图使用 Transformers (BERT) 预训练模型 ChemBERTa 来改进化合物的 DTI 预测模型。预训练的特点是使用简化的分子输入线路输入系统 (SMILES)。我们还使用预训练的 ProBERT 来预测靶蛋白(预训练使用氨基酸序列)。BIOSNAP、DAVIS 和 BindingDB 数据库 (DB) 被用于(单独或一起)学习。最终模型由 ChemBERTa 和 ProtBert 以及集成的 DB 共同教授,与之前的模型相比,根据受试者工作特征曲线下面积 (AUC) 和精确召回率-AUC 值,提供了迄今为止最佳的 DTI 预测性能。使用对 13 对底物和代谢酶细胞色素 P450 (CYP) 的特定案例研究验证了最终模型的性能。最终模型提供了出色的 DTI 预测。由于药物和靶蛋白之间的现实世界相互作用预计会表现出特定的模式,因此使用 ChemBERTa 和 ProtBert 进行预训练可以教授此类模式。如果学习采用涵盖药物和靶蛋白之间所有关系的大型、均衡的数据集,学习此类相互作用的模式将提高 DTI 准确性。
药物-靶标相互作用 (DTI) 的发现是一个非常有前途的研究领域,具有巨大的潜力。通过计算方法准确识别药物和蛋白质之间的可靠相互作用,通常利用从不同数据源检索到的异构信息,可以促进有效药物的开发。尽管随机游走和矩阵分解技术在 DTI 预测中被广泛使用,但它们有几个局限性。基于随机游走的嵌入生成通常以无监督的方式进行,而矩阵分解中的线性相似性组合会扭曲不同观点提供的个体见解。为了解决这些问题,我们采用多层网络方法来处理不同的药物和靶标相似性,并提出了一种新的优化框架,称为基于多相似性 DeepWalk 的矩阵分解 (MDMF),用于 DTI 预测。该框架统一了嵌入生成和交互预测,学习药物和靶标的向量表示,不仅可以在所有超层中保持高阶接近度和层特定的局部不变性,还可以近似其内积的相互作用。此外,我们开发了一种集成方法 (MDMF2A),该方法集成了 MDMF 模型的两个实例,分别优化了精确召回曲线下面积 (AUPR) 和受试者工作特征曲线下面积 (AUC)。对现实世界 DTI 数据集的实证研究表明,我们的方法在四种不同设置中实现了比当前最先进的方法具有统计显著改进。此外,对高排名非相互作用对的验证也证明了 MDMF2A 发现新型 DTI 的潜力。
药物 - 靶相互作用(DTI)被认为是基因组药物发现的重要组成部分,DTI的计算预测可以加速到靶标的铅药物,这可以弥补缺乏耗时且昂贵的湿湿技术技术。当前,许多计算方法基于药物和靶标的顺序组成或理化特性来预测DTI,但是需要进一步的努力来改善它们。在本文中,我们提出了一种基于序列的新方法,以准确识别DTI。对于目标蛋白质,我们使用来自变压器(BERT)的预训练的双向编码器表示探索,以提取序列特征,这些序列特征可以提供独特而有价值的模式信息。对于药物分子,使用离散小波变换(DWT)来从药物分子纤维固定物中产生信息。然后,我们将DTI的特征向量加以连接,然后将它们输入由批处理层,矩阵线性激活层和线性层组成的特征提取模块,称为BRL块和称为卷积神经网络模块,以进一步提取DTIS。随后,将BRL块用作预测引擎。基于对比度损失和跨透明镜损失优化模型后,它给出了G蛋白偶联受体,离子通道,酶和核受体的靶族的预测准确性,最高为90.1、94.7、94.9和89%,这表明该建议的方法可以超过现有的预测者。提出的方法也可能是其他DIT的潜在选择。为了使研究人员尽可能方便,新预测器的Web服务器可自由访问:https://bioinfo.jcu.edu.edu.cn/dtibert或http://http://121.36.221.79/dtibert/。
人体内的药物与靶标相互作用 (DTI) 在生物医学科学和应用中起着至关重要的作用。由于每年在生物医学领域都有数百万篇论文发表,从生物医学文献中自动发现 DTI 知识(通常由关于药物、靶标及其相互作用的三元组组成)成为业界的迫切需求。现有的发现生物知识的方法主要是提取方法,这些方法通常需要详细的注释(例如,所有生物实体的提及、每两个实体提及之间的关系等)。然而,由于需要生物医学领域的专家知识,因此获取足够的注释非常困难且成本高昂。为了克服这些困难,我们使用生成方法探索了此任务的第一个端到端解决方案。我们将 DTI 三元组视为一个序列,并使用基于 Transformer 的模型直接生成它们,而无需使用实体和关系的详细注释。此外,我们提出了一种半监督方法,该方法利用上述端到端模型来过滤未标记的文献并对其进行标记。实验结果表明,我们的方法在 DTI 发现方面的表现明显优于提取基线。我们还创建了一个数据集 KD-DTI 来推进这项任务,并将其发布给社区。
摘要 — 药物-靶标相互作用 (DTI) 预测在药物发现和化学基因组学研究中非常重要。机器学习,尤其是深度学习,在过去几年中极大地推动了这一领域的发展。然而,学术论文中报告的性能与实际药物发现环境中的性能之间存在显著差距,例如基于随机分割的评估策略在估计现实环境中的预测性能时往往过于乐观。这种性能差距主要是由于实验数据集中隐藏的数据偏差和不适当的数据分割。在本文中,我们构建了一个低偏差 DTI 数据集,并研究了更具挑战性的数据分割策略,以改进现实设置的性能评估。具体而言,我们研究了流行的 DTI 数据集 BindingDB 中的数据偏差,并使用五种不同的数据分割策略重新评估了三种最先进的深度学习模型的预测性能:随机分割、冷药分割、支架分割和两种基于层次聚类的分割。此外,我们全面检查了六个性能指标。我们的实验结果证实了流行的随机分割的过度乐观,并表明基于层次聚类的分割更具挑战性,并且可以在现实世界的 DTI 预测设置中提供对模型通用性的更有用的评估。索引术语——药物-靶标相互作用、数据偏差、数据分割策略、性能评估
生成的AI模型,例如稳定的扩散,DALL-E和MIDJOURNEY,最近引起了广泛的关注,因为它们可以通过学习复杂,高维图像数据的分布来产生高质量的合成图像。这些模型现在正在适用于医学和神经影像学数据,其中基于AI的任务(例如诊断分类和预测性建模)通常使用深度学习方法,例如卷积神经网络(CNNS)和视觉变形金刚(VITS)(VITS),并具有可解释性的增强性。在我们的研究中,我们训练了潜在扩散模型(LDM)和deno的扩散概率模型(DDPM),专门生成合成扩散张量张量成像(DTI)地图。我们开发了通过对实际3D DTI扫描进行训练以及使用最大平均差异(MMD)和多规模结构相似性指数(MS-SSSIM)评估合成数据的现实主义和多样性来生成平均扩散率的合成DTI图。我们还通过培训真实和合成DTI的组合来评估基于3D CNN的性别分类器的性能,以检查在培训期间添加合成扫描时的性能是否有所提高,作为数据增强形式。我们的方法有效地产生了现实和多样化的合成数据,有助于为神经科学研究和临床诊断创建可解释的AI驱动图。
摘要:缺血性中风是一个世界性问题,每年有 1500 万人中风。磁共振成像是了解和评估中风后大脑变化以及预测康复的宝贵工具。特别令人感兴趣的是弥散磁共振成像在非急性期(中风后 1 - 30 天)中的应用。关于弥散磁共振成像在中风中的应用,已经发表了数千篇文章,包括最近几篇回顾弥散磁共振成像在中风中的应用的文章。这项工作的目的是调查并阐述最近在中风后患者中使用弥散磁共振成像方法的情况,这些方法包括弥散峰度、广义分数各向异性、球面谐波方法以及神经突方向和弥散模型。早期研究报告称,这些类型的超 DTI 方法在对中风后变化更敏感或更好地预测结果运动评分方面优于 DTI 指标。需要进行更多更大规模的研究来证实超 DTI 方法对中风康复的预测效果更好。
阿卜杜拉国王科技大学 (KAUST),计算生物科学研究中心 (CBRC),沙特阿拉伯图瓦尔 vladimir.bajic@kaust.edu.sa 摘要 识别药物和蛋白质的相互作用是药物发现早期阶段和寻找新药用途的重要步骤。传统的实验识别和验证这些相互作用仍然耗时、昂贵,并且成功率不高。为了改进这种识别过程,开发计算方法以最小错误率预测和排序可能的药物-靶标相互作用 (DTI) 将大有帮助。在这项工作中,我们提出了一种使用图嵌入和图挖掘进行药物-靶标相互作用预测的计算方法 DTiGEM。DTiGEM 模型将新型 DTI 识别为通过整合三个网络构建的异构图中的链接预测问题,即:药物-药物相似性、靶标-靶标相似性和已知 DTI。 DTiGEM 结合了不同的技术,包括图嵌入(例如 node2vec)、图挖掘(例如药物和目标之间的路径得分)和机器学习(例如不同的分类器)。与其他最先进的方法相比,DTiGEM 在四个基准数据集上对 DTI 进行计算预测时,在精确召回曲线下面积 (AUPR) 方面的预测性能有所提高。具体而言,我们证明,基于所有基准数据集的平均 AUPR 得分,DTiGEM 实现了最高平均 AUPR 值 (0.831),从而相对于比较中表现第二好的方法将预测误差降低了 22.4%。
关于 DTI 数据传输倡议 (DTI) 是一个由政策专家和技术专家组成的非营利组织,与技术行业和其他利益相关者合作,通过开发开源工具和共享框架来增强数据可移植性。DTI 在全球范围内努力实现其使命宣言:“通过构建一个充满活力的生态系统来实现简单而安全的数据传输,从而赋予人们权力。” DTI 坚持五项基本原则:为用户构建、优先考虑隐私和安全、拥抱互惠、关注用户数据和尊重每个人。DTI 以实际方式应用这些原则,指导产品开发并促进与用户、平台、非营利组织、学术界和政府的讨论,以促进安全有效的数据可移植性。 愿景 数据可移植性赋予人们权力并扩大市场,为新的数字经济增长创造机会。可移植性允许个人在他们选择的在线服务中使用个人数据,不仅是类似的服务,还有新的下游创新。这重新调整了市场,为人们提供有意义的自由,为企业家提供真正的机会,创造了增长、创新、竞争和个人赋权的良性循环。英国的智能数据议程反映了这些机遇,了解智能数据与网上银行以及数字领域数据传输之间的交集至关重要。值得注意的是,数据可移植性的影响远不止其在数据保护和竞争方面的根源。允许人们从在线服务转向更安全的替代服务,将市场力量与平台责任结合起来。有意义的用户选择和移动性,加上透明度和问责制,带来了类似的协同效应,以加强人工智能治理。英国及其盟友,特别是欧盟,有必要在数据政策上进行协调。随着欧盟新的、广泛的技术法规开始实施,制定通过数据可移植性实现增长的框架将确保英国在塑造数字开放和治理的全球规范方面保持影响力。