ErbB 受体家族(包括 EGFR 和 HER2)在细胞生长和存活中起着至关重要的作用,并与乳腺癌和肺癌等各种癌症的进展有关。在本研究中,我们开发了一个深度学习模型,使用基于 SMILES 表示的分子指纹来预测 ErbB 抑制剂的结合亲和力。每种 ErbB 抑制剂的 SMILES 表示均来自 ChEMBL 数据库。我们首先从 SMILES 字符串生成 Morgan 指纹,并应用 AutoDock Vina 对接来计算结合亲和力值。根据结合亲和力过滤数据集后,我们训练了一个深度神经网络 (DNN) 模型来根据分子指纹预测结合亲和力值。该模型取得了显著的性能,训练集上的均方误差 (MSE) 为 0.2591,平均绝对误差 (MAE) 为 0.3658,R 平方 (R²) 值为 0.9389。尽管在测试集上性能略有下降(R² = 0.7731),但该模型仍然表现出强大的泛化能力。这些结果表明深度学习方法对于预测 ErbB 抑制剂的结合亲和力非常有效,为虚拟筛选和药物发现提供了宝贵的工具。
许多炎症关节疾病与CD10蛋白的表达相关,CD10蛋白在炎症和疼痛传播信号中起很大作用。这种促炎性机制是人类肌肉骨骼组织中各种关节的关节软骨降解的主要指标。CD10在间充质干细胞(MSC)中的表达与其免疫调节和软骨保护作用直接相关。因此,该项目着重于开发基于适应性的生物传感器,该生物传感器将检测CD10表达而不会扰动样品。适体是一个小的单链核酸分子,可以折叠成独特的结构,从而使它们能够高特异性与各种分子蛋白靶标结合。这使他们能够检测出大量的高和低丰度分子。该项目的第一步是使用称为SELEX(指数富集对配体的系统演变)的过程为CD10开发高亲和力适体。我们从一个初始的单链RNA库开始,该库包含大约10 14个不同的序列。将RNA文库与溶液中的CD10蛋白一起孵育。然后使用硝酸纤维素滤光片将蛋白-RNA复合物与未经膜的RNA分离。然后,在对RNA进行逆转录和PCR之前,我们将蛋白质与RNA分开。第一轮之后的最终产物包含与CD10蛋白结合的ssRNA分子。我已经完成了2轮SELEX,并有令人鼓舞的结果。此过程将重复大约10次,使我们能够识别与CD10高亲和力结合的RNA适体。这是开发适体CRISPR传感器的关键步骤,因为某些样品的CD10表达较低。
准确预测硅中的药物目标亲和力(DTA)对于现代药物发现至关重要。在药物开发的早期阶段应用的DTA预测的计算方法,能够大大降低其成本。最近提出了基于机器学习的广泛方法进行DTA评估。它们最有前途的是基于深度学习技术和图形神经网络来编码分子结构。Alphafold做出的蛋白质结构预测的最新突破使得无前前数量的蛋白质,而没有实验定义的结构可用于计算DTA预测。在这项工作中,我们提出了一种新的深度学习DTA模型3DPROTDTA,该模型与蛋白质的图表结合使用了Alphafold结构预测。该模型优于其在通用基准数据集上的竞争对手,并且具有进一步改进的潜力。
动机:抑制剂 - 激酶结合亲和力的准确预测对于药物发现和医疗应用至关重要,尤其是在治疗诸如癌症之类的疾病中。现有的预测抑制剂 - 激酶亲和力的方法仍然面临挑战,包括数据表达不足,功能提取有限和性能低。尽管通过人工智能(AI)方法(尤其是深度学习技术)取得了进展,但许多当前的方法未能捕获激酶与抑制剂之间的复杂相互作用。因此,有必要开发更先进的方法来解决抑制剂 - 激酶结合预测中的现有问题。结果:这项研究提出了Kinhibhib,这是抑制剂 - 激酶结合亲和力预测指标的新型框架。kinhibit会整合自我监督的预训练的预训练的分子编码器和蛋白质语言模型(ESM-S),以有效提取特征。kinhibit还采用特征融合方法来优化抑制剂和激酶特征的融合。实验结果证明了这种方法的优越性,在三种MAPK信号途径激酶的抑制剂预测任务中,精度达到了92.6%的精度:RAF蛋白激酶(RAF),有丝分裂原激活的蛋白激活蛋白激酶激酶激酶(MEK)和细胞外信号调节激酶(ERK)。此外,该框架在包含200多个激酶的数据集上达到了令人印象深刻的精度。这项研究为药物筛查和生物科学提供了有希望的有效的工具。
动机:抑制剂 - 激酶结合亲和力的准确预测对于药物发现和医疗应用至关重要,尤其是在治疗诸如癌症之类的疾病中。现有的预测抑制剂 - 激酶亲和力的方法仍然面临挑战,包括数据表达不足,功能提取有限和性能低。尽管通过人工智能(AI)方法(尤其是深度学习技术)取得了进展,但许多当前的方法未能捕获激酶与抑制剂之间的复杂相互作用。因此,有必要开发更先进的方法来解决抑制剂 - 激酶结合预测中的现有问题。结果:这项研究提出了Kinhibhib,这是抑制剂 - 激酶结合亲和力预测指标的新型框架。kinhibit会整合自我监督的预训练的预训练的分子编码器和蛋白质语言模型(ESM-S),以有效提取特征。kinhibit还采用特征融合方法来优化抑制剂和激酶特征的融合。实验结果证明了这种方法的优越性,在三种MAPK信号途径激酶的抑制剂预测任务中,精度达到了92.6%的精度:RAF蛋白激酶(RAF),有丝分裂原激活的蛋白激活蛋白激酶激酶激酶(MEK)和细胞外信号调节激酶(ERK)。此外,该框架在包含200多个激酶的数据集上达到了令人印象深刻的精度。这项研究为药物筛查和生物科学提供了有希望的有效的工具。
在药物发现中,药物-靶标亲和力 (DTA) 被视为至关重要的一步,因为它有助于在开发过程中识别最有前途的候选药物。由于必须考虑药物和靶分子的结构和功能,以及它们复杂而非线性的相互作用,DTA 预测是一项具有挑战性的任务。本研究的目的是提出一种新颖的 DTA 预测框架,该框架利用图神经网络 (GNN) 的交叉注意网络 (CAN) 的优势。然而,使用 GNN 表示图会保留其 3D 结构信息。现有的基于注意力的方法并未充分利用它们。我们的框架使用 CAN 通过分析药物分子的不同部分如何与蛋白质的特定区域相互作用来捕获药物-靶标对的更准确表示。我们在顺序架构中使用 GIN 和 GAT 来捕获药物图分子的局部和全局结构信息。我们在两个基准数据集 Davis 和 KIBA 上评估了所提出方法的性能。其性能令人鼓舞,在均方误差 (MSE) 和一致性指数 (CI) 方面优于许多最先进的方法。具体来说,对于 Davis 数据集,我们实现了 0.222 的 MSE 和 0.901 的 CI,而对于 KIBA,我们获得了 0.144 的 MSE 和 0.883 的 CI。我们的方法提高了相互作用分析的可解释性和特异性,为药物发现过程提供了更深入的见解,并为预测的 DTA 提供了有价值的解释。我们的研究代码可在以下网址获取:https://github.com/fsonya88/CAN-DTA。
HAL 是一个多学科开放存取档案库,用于存放和传播科学研究文献,无论这些文献是否已出版。这些文献可能来自法国或国外的教学和研究机构,也可能来自公共或私人研究中心。
法律挑战:大麻部门面临的最重要的障碍之一是复杂且通常不一致的法律格局。在国家和国际层面存在监管障碍,为企业驾驶的挑战性迷宫。跨国立法的差异可能会使事情进一步复杂化。例如,尽管加拿大这样的国家已经完全合法化了大麻,但它仍然严格控制着许多国家。这种差异为希望跨境扩展的企业造成了不确定性,要求他们理解并遵守不同的法规,这通常是令人生畏的和资源密集的。
杂环化合物在合成和天然化学空间中普遍存在,是各种应用的基本骨架(Reymond,2015)。杂环化合物意义重大,因为它们对人类、植物和动物至关重要(Katritzky 等人,2010)。在广泛的中小型杂环化合物中,嘧啶核构成了一组重要的药理活性化合物(Das 等人,2022)。该核心的重要性得到了充分的支持,因为它是核碱基(胞嘧啶、胸腺嘧啶、尿嘧啶)以及许多临床批准药物的片段。例如,嘧啶核存在于 5-氟尿嘧啶、伊马替尼(抗癌药)、利匹韦林(抗病毒药)、艾克拉普林(抗生素)、甲氧苄啶(抗菌药)和许多其他药物中(Nammalwar and Bunce,2024 年)。此外,它能够充当生物电子等排体(用于芳香核)并通过非共价相互作用 (NCI) 与生物靶标相互作用,使其成为药物发现计划的绝佳候选者(Nammalwar and Bunce,2024 年)。大量研究表明,嘧啶是开发针对慢性和传染病的药物的有希望的支架(Nadar and Khan,2022 年)。近年来,已鉴定出几种具有抗原虫(Rahman 等人,2024;Singh 等人,2024)、抗炎(Fatima 等人,2023)、抗神经炎症(Manzoor 等人,2023)和碳酸酐酶抑制(Manzoor 等人,2021a)活性的 4,6-二取代嘧啶。一个多世纪前就有报道,阿尔茨海默病 (AD) 现已成为痴呆症最普遍的原因,全球已报告数百万例病例。这导致了巨大的经济和人力负担(Bell,2023;Gustavsson 等人,2023)。到 2050 年,患有 AD 和其他痴呆症的人数估计将超过 1.52 亿(Nichols 等人,2022 年)。为了对抗这种使人衰弱的疾病,研究人员正在采用各种方法,其中一种方法是开发针对一种或多种 AD 机制(例如 β-淀粉样斑块、神经纤维缠结)的小分子(Takahashi 等人,2017 年)。在迄今为止鉴定出的不同类别的小分子中,基于嘧啶的化合物成为一种有希望的候选化合物(Singh 等人,2021 年;Das 等人,2022 年)。例如,Nain 及其同事(Pant 等人,2024 年)报道了一系列取代的
最近已经提出了动机的强大生成模型,但这些方法中很少有支持柔性蛋白质配体对接和亲和力估计。没有人可以直接对多种结合配体进行同时建模,也可以根据药理学相关的药物靶标进行严格的标准,从而阻碍了它们在药物发现工作中的广泛采用。 导致这项工作,我们提出了FlowDock,这是一种基于条件流量匹配的深几何生成模型,该模型学会了将其直接映射到其绑定的(Holo)对应物中,以将其映射到任意数量的结合配体中。 此外,Flowdock与其每种生成的蛋白质配体复杂结构中提供了预测的结构置信度评分和结合亲和力值,从而实现了新(多配体)药物目标的快速虚拟筛选。 对于常用的PoseBusters基准数据集,Flotdock使用Unbound(APO)蛋白质输入结构实现了51%的盲区对接成功率,而没有任何来自多个序列比对的信息,并且对于具有挑战性的新Dockgen-E数据集,FlotDock与单次序列Chai-1的性能相匹配。 此外,在第16个社区范围内的结构预测技术批判性评估(CASP16)的配体类别中,Flowdock在140种蛋白质配体复合物中的药理学结合亲和力估计的前5位方法中排名,证明了其在虚拟筛选中的学位表达的功效。没有人可以直接对多种结合配体进行同时建模,也可以根据药理学相关的药物靶标进行严格的标准,从而阻碍了它们在药物发现工作中的广泛采用。导致这项工作,我们提出了FlowDock,这是一种基于条件流量匹配的深几何生成模型,该模型学会了将其直接映射到其绑定的(Holo)对应物中,以将其映射到任意数量的结合配体中。此外,Flowdock与其每种生成的蛋白质配体复杂结构中提供了预测的结构置信度评分和结合亲和力值,从而实现了新(多配体)药物目标的快速虚拟筛选。对于常用的PoseBusters基准数据集,Flotdock使用Unbound(APO)蛋白质输入结构实现了51%的盲区对接成功率,而没有任何来自多个序列比对的信息,并且对于具有挑战性的新Dockgen-E数据集,FlotDock与单次序列Chai-1的性能相匹配。此外,在第16个社区范围内的结构预测技术批判性评估(CASP16)的配体类别中,Flowdock在140种蛋白质配体复合物中的药理学结合亲和力估计的前5位方法中排名,证明了其在虚拟筛选中的学位表达的功效。可用性和实现源代码,数据和预训练的模型可在https://github.com/ bioinfaramefaraminelearning/flowdock上找到。