生成生物医学知识图谱问答数据集

作者:Xi Yan 生物医学领域是一个复杂的相互关联的知识网络,涵盖遗传学、疾病、药物和生物过程。虽然知识图谱 (KG) 擅长组织和链接这些信息,但它们的复杂性往往使用户难以查询。理想情况下,用户应该能够用自然语言提问并获得准确的答案 [...]

来源:ΑΙhub

作者:Xi Yan

作者:Xi Yan

生物医学领域是一个复杂的相互关联的知识网络,涵盖遗传学、疾病、药物和生物过程。虽然知识图谱 (KG) 擅长组织和链接这些信息,但它们的复杂性往往使用户难以查询。理想情况下,用户应该能够用自然语言提问并直接从 KG 获得精确的答案,而无需专门的查询专业知识。然而,让基于深度学习的系统使用自然语言查询 KG 仍然是一项重大挑战。现有的生物医学知识图谱问答 (BioKGQA) 数据集很小且范围有限,通常仅包含几百个问答 (QA) 对。数据稀缺阻碍了稳健且可扩展的 QA 系统的开发,而这些系统对于临床决策支持、个性化医疗和药物发现等关键应用至关重要。

PrimeKGQA 利用大型语言模型 (LLM) 的强大功能,通过一种新颖、可扩展的数据集生成方法解决了这些挑战。PrimeKG 是一种面向精准医学的知识图谱,整合了来自 20 个引用最多的生物医学数据库的数据,涵盖十个生物尺度,包括基因、疾病和药物。PrimeKGQA 利用可通用、可扩展且无需训练的数据生成框架。该框架使用 LLM 的少样本学习,将 KG 子图(基于网络主题,见图 1)转换为 SPARQL 查询,随后将其转换为自然语言问答对。由此产生的 PrimeKGQA 数据集涵盖了广泛的生物医学概念和推理复杂性,从简单的事实查询到复杂的多跳推理路径,为推进生物医学问答系统提供了全面的资源。

PrimeKGQA 网络主题 SPARQL GPT3 Mistral LLaMA GitHub

阅读全文

这项研究在 ECAI 2024 上发表。

标签: