材料和方法:我们使用了来自 2020AA–2022AB UMLS Metathesaurus 连续版本的训练测试数据集。我们的启发式“瀑布”方法采用了 7 种不同的 SG 预测方法。不符合方法的原子被传递给下一种方法。DL 方法为原子名称生成 BioWordVec 和 SapBERT 嵌入,为源词汇表名称生成 BioWordVec 嵌入,为原子源层次结构中倒数第二节点的原子名称生成 BioWordVec 嵌入。我们将 4 个嵌入的连接输入到完全连接的多层神经网络中,该网络的输出层有 15 个节点(每个 SG 一个)。对于这两种方法,我们都开发了方法来估计它们预测的原子 SG 正确的概率。基于这些估计,我们开发了 2 种混合 SG 预测方法,结合了启发式方法和 DL 方法的优势。
内容表2介绍:Atropos健康3问题定义4研究问题5方法6准备药物来源术语6方法1:通过医疗保健特定的NLP模型7命名实体识别命名的实体识别7方法2:通过UMLS API通过UMLS API 7方法7方法7方法7方法3:umls api plus for gpti plus gpt-4人类访问量11的方法, Mapping Outcomes 11 Other Mapping Outcomes 11 Approach 1: Janus-Derived Maps 13 Janus AUROC Curves for Different Mapping Outcomes 14 Approach 2: UMLS API Alone 15 UMLS API Alone Correctness Metrics 15 Approach 3: Generative Terminology Mapping 17 Generative Terminology Mapping Results: 90% Reduction in Errors, 91% Coverage, 98% Reduced Cost 18 Generative Terminology Mapping (UMLS API Plus GPT-4)正确性指标18生成术语映射与地面真相结果和混乱矩阵18数据工程挑战19估计成本和比较20结论21生成术语映射生成研究级RXNorm映射药物数据,在21个警告和未来方向23附录23附录24
LINCS 中心利用深入的基因和蛋白质表达分析来生成可直接映射到 IDG 蛋白质靶标的签名。疾病和表型本体映射是一项社区挑战,有 OMOP 和 UMLS 等实用且可行的解决方案。LINCS 扰动物包括严格定义的化学实体和 IDG 资源 DrugCentral 中包含的小分子药物。因此,LINCS 的大量人类细胞系和实验化学扰动数据集,结合 IDG 的蛋白质靶标(基因和蛋白质 ID)和 DrugCentral 活性药物成分(药物化合物)数据库,为药物靶标发现提供了紧密集成的组合资源。
背景:生物医学转化科学越来越多地利用大型结构化知识库(如统一医学语言系统 (UMLS)、语义医学数据库 (SemMedDB)、ChEMBL、DrugBank 和小分子途径数据库 (SMPDB))和数据的计算推理,以促进发现新的治疗目标和治疗方式。自 2016 年以来,NCATS 生物医学数据翻译器项目一直致力于在分布式系统内联合自主推理代理和知识提供者,以回答转化问题。在该项目内以及更广泛的领域内,迫切需要一个开源框架,可以有效且可重复地构建一个集成的、符合标准的、全面的生物医学知识图谱,该图谱可以以标准序列化形式下载或通过符合 FAIR 数据原则的公共应用程序编程接口 (API) 进行查询。
摘要 - 在计算知识的领域中,知识图推理(KG-R)位于促进多种领域的促进复杂的推论能力的前端。这项研究的精髓旨在实现强化学习的使用(RL)策略,尤其是增强算法,以浏览多跳kg-r中固有的内在物质。这项调查批判性地解决了知识图(kgs)固有的不完整所带来的普遍挑战,这些挑战经常导致错误的推论结果,表现为虚假负面因素和误导性的阳性。通过将大学的医学语言系统(UMLS)分区分为富且稀疏的子集,我们研究了预训练的BERT嵌入式的功效,并促使学习方法来完善奖励成型过程。这种方法不仅提高了多跳kg-r的精度,而且为该领域的未来研究树立了新的先例,旨在提高复杂KG框架内知识推断的鲁棒性和准确性。我们的作品对KG推理的论述有了新的观点,提供了一种方法上的进步,该进步与自然期刊的学术严谨和学术愿望保持一致,并有望在计算知识表示领域中进一步发展。索引术语 - 知识图推理,强化学习,奖励成型,转移学习
命名实体识别是一项信息提取任务,旨在识别文本中的命名实体并将其分类为预定义的类别。嵌套的命名实体识别涉及检测外部实体和内部实体。Bionne竞争[1]是CLEF 2024 Bioasq Lab [2]的一部分,重点是从生物医学文本中提取嵌套的实体。嵌套命名实体类型包括解剖(解剖学),化学物质(化学),疾病(DISO),生理学(物理),科学发现(发现),受伤或中毒损害(伤害_poisoning),实验室程序(LABPROC)和医疗设备(设备)[3]。挑战提供俄罗斯,英语和双语曲目。对于英语曲目,组织者提供了一个带有50个记录和一个带有50个记录的验证的培训集。每个记录都包含一个文本,即PubMed摘要,以及以Brat格式注释的实体列表,其本文中实体的起始和结束位置。在测试阶段,组织者发布了一个带有154个摘要和346个额外文件的测试集,总共有500个记录。我们的团队专注于Bionne English Track。我们的系统使用大型语言模型(特别是Mixtral 8x7b指示模型[4])和一个生物医学模型来查找文章中的实体。然后,系统使用统一的医学语言系统(UMLS)语义类型来过滤和汇总实体。实现可以在GitHub 1上找到。