天然化合物是潜在小分子治疗药物的丰富资源。尽管由于其多样性和系统纯化的困难,这种资源的实验性访问受到限制,但计算评估与已知治疗分子的结构相似性提供了一种可扩展的方法。在这里,我们使用机器学习方法结合多种化学相似性指标和物理化学性质来评估天然化合物与已批准药物之间的功能相似性。我们计算了 1410 种药物之间的成对相似性以训练分类模型,并使用药物共享的蛋白质靶标作为类标签。表现最好的模型是随机森林,其平均 ROC 下面积为 0.9,马修斯相关系数为 0.35,F1 得分为 0.33,表明它很好地捕捉了结构-活性关系。然后使用这些模型通过将大约 11k 种天然化合物与药物进行比较来预测其蛋白质靶标。这揭示了几种天然化合物的治疗潜力,包括那些有以前发表的资料支持的化合物以及迄今为止尚未开发的化合物。我们通过实验验证了预测对之一的活性,即 5-甲氧基水杨酸对 Cox-1 的抑制作用,5-甲氧基水杨酸是一种常见于茶、草药和香料中的分子。相比之下,另一种天然化合物 4-异丙基苯甲酸在考虑最大加权相似度指标时具有最高相似度得分,但未被我们的模型挑选出来,它没有抑制 Cox-1。我们的结果证明了结合多种化学特征的机器学习方法在揭示天然化合物的蛋白质结合潜力方面的实用性。
3,4-亚甲基二氧基甲基苯丙胺 (MDMA) 和苯丙胺是常用的精神兴奋剂。这些物质的非法制造主要位于荷兰和比利时,产生大量的化学废物,这些废物被处置在环境中或排放到下水道系统中。对高分辨率质谱 (HRMS) 数据进行了回顾性分析,以检测废水样品中 MDMA 和苯丙胺生产的合成标记物。具体而言,实施了可疑和非目标筛选,并结合基于检测到的特征与 MDMA 和苯丙胺质量负荷之间的相似性度量的优先级方法。2016 年至 2018 年期间,采用液相色谱-高分辨率质谱联用技术分析了从荷兰一家处理厂采集的 235 个 24 小时复合废水样品。样本最初根据 MDMA 和苯丙胺的每日摄入量分为两组(即基线消费组与倾倒组)。使用显著性检验和倍数变化来查找两组中特征之间的差异。然后,使用各种测量方法(欧几里得距离、皮尔逊相关系数、斯皮尔曼等级相关系数、距离相关和最大信息系数)调查整个时间序列中所有特征的峰面积与 MDMA 或苯丙胺摄入量之间的关联。这种无监督、无偏见的方法用于对特征进行优先排序,并允许选择 28 种假定的 MDMA 和苯丙胺生产标记。这些标记可能用于检测下水道系统中的倾倒处,有助于确定合成路线并追踪环境中的废物。
顾名思义,语言的上下文表示语言表示通常是由于其编码上下文的能力而动机。这些表示形式捕获了上下文的哪些方面?我们采用了一种使用代表性相似性分析(RSA)来解决这个问题的方法。作为案例研究,我们研究了动词嵌入动词的主题的程度,代词嵌入的代词编码代词的前提,并且一个全句子表示编码句子的头部单词(由依赖性parse确定)。在所有情况下,我们都表明,伯特的上下文化嵌入反映了所研究的语言依赖性,而伯特的依赖性比编码语言较低的偏见对照的程度更大。这些结果证明了我们的方法在假设之间裁定上下文的哪个方面在语言表示中编码的能力。
背景:尽管基于证据的医学提出了个性化的护理,以考虑最好的证据,但在许多实际临床情况下,它仍然无法解决个人治疗,因为情况的复杂性不适用可用的证据。“基于医学的证据”(MBE)提出了大数据和机器学习技术,以从现实世界中的临床实践中从适当匹配的患者中得出治疗反应。但是,将这个概念框架转化为实践中仍然存在许多挑战。目的:本研究旨在将MBE概念框架从技术上转化为实践,并评估其在先天性心脏病(CHD)手术后为结果提供一般决策支持服务的表现。方法:收集了4774个CHD手术的数据。使用自然语言处理技术从每个超声心动图报告中提取了总共66个指标和所有诊断。结合了一些基本的临床和手术信息,每个患者之间的距离通过一系列计算公式进行测量。受结构映射理论的启发,不同维度之间距离的融合可以由临床专家调节。除了支持直接类似推理外,还可以基于类似患者来构建机器学习模型以提供个性化的预测。提出并开发了一个名为CHDMAP的CHD的患者相似性网络(PSN),以根据MBE方法提供一般决策支持服务。结果:使用256例CHD病例,对2种不同类型的术后预测预测任务进行了评估:二进制分类任务,以预测术后并发症和多个分类任务,以预测机械通风持续时间。与3位临床医生的平均表现相比,PSN提供的大多数相似患者的简单民意调查可以实现更好的预测结果。使用从PSN获得的类似患者构建逻辑回归模型可以进一步改善这两个任务的性能(接收器操作角色下的最佳区域 -
摘要 - 识别和利用各种生物标志物跟踪阿尔茨海默氏病(AD)的进展已受到许多最近的关注,并使帮助临床医生迅速做出了迅速的决定。传统的进程模型着重于从MRI/PET图像(例如区域平均皮质厚度和区域量)中提取感兴趣区域(ROI)中的形态生物标志物(ROI)。它们是有效的,但忽略了随着时间的流逝,大脑ROI之间的关系会导致协同的恶化。用于探索这些生物标志物之间的协同恶化关系,在本文中,我们提出了一种新型时空相似性度量的多任务学习方法,可有效预测AD的进展并敏感地捕获生物标志物之间的关键关系。特别是,我们首先定义了一个时间量度,用于估计生物标志物变化随时间变化的幅度和速度,这表明趋势变化(时间)。将这一趋势转换为矢量,然后我们比较了统一的矢量空间(空间)中生物标志物之间的这种变异性。实验结果表明,与直接基于ROI的特征学习相比,我们提出的方法在预测疾病进展方面更有效。我们的方法还使执行纵向稳定性选择以确定生物标志物之间不断变化的关系,这些关系在疾病进展中起着关键作用。我们证明,皮质体积或表面积之间的协同恶化的生物标志物对认知预测具有显着影响。索引术语 - Alzheimer疾病,脑生物标志物相关性,余弦相似性,多任务学习
摘要 预测药物-靶标相互作用 (DTI) 已成为一个重要的生物信息学问题,因为它是药物重新定位的关键和初步阶段之一。因此,科学家们正在尝试开发更准确的计算方法来预测药物-靶标相互作用。这些方法通常基于机器学习或推荐系统,并使用生物和化学信息来提高预测的准确性。在这些方法的背景下,有一个假设,即具有相似化学结构的药物具有相似的靶标。因此,药物之间的相似性作为化学信息被添加到计算方法中以改进预测结果。这里出现的问题是这种说法是否真的正确?如果是这样,应该使用什么方法来计算药物-药物化学结构的相似性?我们是否会从我们使用的任何 DTI 预测方法中获得同样的改进?在这里,我们研究了通过将药物-药物化学结构相似性添加到问题中可以实现的改进量。为此,我们考虑了不同类型的真实化学相似性、随机药物相似性、四个黄金标准数据集和四种最先进的方法。我们的结果表明,数据的类型和大小、用于预测相互作用的方法以及用于计算药物间化学相似性的算法都很重要,不能轻易地说增加药物相似性可以显著改善结果。因此,我们的结果可以为想要改进机器学习方法的科学家提供一份清单。
63 Similarity matrix ...................................................................................................................................................................................................................................................................................................................................................................................................................
流动海洋表面的湍流与陆地上的湍流具有不同的特性。因此,基于陆地上的湍流动能 (TKE) 预算和莫宁-奥布霍夫相似理论 (MOST) 的发现可能不适用于海洋条件,部分原因是存在波边界层(大气边界层的下部,包括表面波的影响;我们在本文中使用术语“WBL”以方便使用),其中总应力可分为湍流应力和波相干应力。这里湍流应力定义为由风切变和浮力产生的应力,而波相干应力则考虑了海浪和大气之间的动量传递。在本研究中,研究了湍流动能 (TKE) 预算和惯性耗散法 (IDM) 在 WBL 内 MOST 背景下的适用性。我们发现,在计算波浪条件下的总应力时,不应忽略 TKE 预算中的湍流传输项。这已通过在固定平台上进行的观测得到证实。结果还表明,在 WBL 内应用 MOST 时应使用湍流应力,而不是总应力。通过结合 TKE 预算和 MOST,我们的研究表明,传统 IDM 计算的应力对应于湍流应力,而不是总应力。在应用 IDM 计算 WBL 中的应力时,应考虑波浪相干应力。
用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要一种混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们预计,该基准将有助于促进开发新的强大技术,用于生物医学研究中的相关文章的标题和基于标题/摘要的搜索引擎。
用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要一种混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们预计,该基准将有助于促进开发新的强大技术,用于生物医学研究中的相关文章的标题和基于标题/摘要的搜索引擎。