在生物信息学中,查询复杂知识图(kgs)的能力对于提取有意义的见解至关重要。但是,手动制作SPARQL查询,尤其是跨多个连接的KGS的联合查询,甚至对于专家而言,甚至可能是一项耗时且具有挑战性的任务。这导致人们对知识图答录(KGQA)系统的需求不断增长,该系统可以将自然语言查询转化为SPARQL,从而弥合用户问题与可用结构化数据之间的差距。大型语言模型(LLMS)提供了一个令人兴奋的机会来应对这一挑战,从而有可能自动从自然语言输入中产生准确的SPARQL查询。然而,尽管LLM在该领域表现出了令人印象深刻的能力[1] [2],但当前的系统难以处理大规模,不断发展的kg,例如SIB Swiss Swiss生物信息学研究所的目录[3]。在这项工作中,我们提供了一种解决方案,旨在帮助SIB的生物信息学KGS [4],例如Uniprot [5],BGEE [6]或OMA [7],以探索和查询可用数据。我们的方法利用LLM和端点元数据来生成SPARQL查询,同时解决动态整合不断发展的数据集的挑战,而无需持续不断的再培训。通过提供可扩展的系统1,以适应生物信息学知识的复杂且不断变化的景观,我们的目标是显着减少在联邦公里范围内查询的时间和专业知识所需的时间和专业知识。
摘要在广泛的自然语言处理应用程序中大型语言模型(LLM)的最新成功为通往新的问答系统而不是知识图表的途径开辟了道路。然而,阻止其实施的主要障碍之一是缺乏将问题转化为相应的SPARQL查询的培训数据,尤其是在特定领域的KG中。为了克服这一挑战,在这项研究中,我们评估了几种策略,以微调Openllama LLM,以回答有关生命科学知识图的问题。特别是,我们提出了一种端到端数据增强方法,用于将一组现有查询扩展到给定知识图上,向较大的语义丰富的问题到SPARQL查询对的较大数据集,即使对于这些对稀缺的数据集也可以进行微调。在这种情况下,我们还研究了语义“线索”在查询中的作用,例如有意义的变量名称和内联评论。最后,我们评估了对现实世界中BGEE基因表达知识图的方法,并且与具有随机变量名称的基线相比,语义线索可以将模型性能提高高达33%,而没有评论。
生物数据库中的大量数据泛滥提供了医疗保健和生命科学领域的各种信息。这些数据库为研究人员,科学家和工作专业人员提供了加速发现,开发新的假设并确定新型模式的机会[1]。另一方面,这些数据库需要实现复杂的存储和检索系统来从这些大数据库中检索信息。这成为研究人员和科学家的挑战[2]。作为RDF知识图发布的大多数生物数据库都依赖于SPARQL(SPARQL协议和RDF查询语言)等复杂的查询语言[3]来从数据库中检索信息。没有技术知识或有限的技术知识,研究人员和域用户无法编写准确且可靠的SPARQL查询,这可能会成为利用这些数据库的全部潜力的瓶颈[3] [1]。SPARQL是一种查询语言,可以使用户从数据库中查询信息[4] [3]。许多生物数据库利用RDF(资源描述框架)数据模型,其中RDF表示信息为适用于蛋白质功能(例如蛋白质功能,基因相互作用)的复杂生物学关系的互连三元组(受试者,谓词,对象)[2] [2] [4]。RDF数据可通过SPARQL端点提供,而SPARQL查询语言是专门设计用于查询RDF数据的,可以有效
通过在网络上部署公共查询端点,近几十年来,数据的语义网络已经大大增长。例如,Yummydata.org目录超过55个SPARQL端点,对生物医学界来说是最重要的。但是,SPARQL端点通常缺乏基于直观的网络接口,该接口有效地帮助Sparql精通用户编写查询,特别是缺少自动完整[3]。诸如Stardog 1和GraphDB 2之类的几家三重商店提出了查询编辑器,但它们是专有和三重依赖于商店的解决方案,或者它们没有基于数据吸引的模式的自动完整解决方案(即,在现有数据上构建的数据架构)。另外,QLEVER UI查询编辑器是开源3,并提供自动完整,但仅在Qlever Triple Store上工作。在[1]中,作者描述了Qlever自动完成方法,该方法需要为每个自动完成请求发送SPARQL查询。结果,如果通过非QLEVER端点实现此方法,则每个自动完整请求可能需要几秒钟损害可用性并增加端点服务器负载。存在其他开源查询编辑器;但是,它们是针对特定数据集(例如Wikidata查询服务[5])量身定制的,或者缺乏基本的相关功能,例如
●KG是一个图形结构的知识库,其中包含术语(词汇或本体论)和通过术语相关的数据实体; ●KGS基于语义Web技术(RDF,SPARQL等),通常用于敏捷数据集成; ●KGS已经被德国的研究数据生产商和经理广泛使用。
查询知识库是知识表示中最重要和最基本的任务之一。尽管查询知识库的大部分工作都集中在连接查询上,但通常需要使用一种简单的递归形式,例如常规路径查询 (RPQ) 提供的递归形式,它要求由给定的常规语言定义的路径。连接 RPQ (CRPQ) 可以理解为具有这种递归形式的连接查询的泛化。CRPQ 是 SPARQL 的一部分,SPARQL 是用于查询 RDF 数据的 W3C 标准,包括众所周知的知识库,如 DBpedia 和 Wikidata。特别是,RPQ 在查询 Wikidata 方面非常流行。根据最近的研究 (Malyshev 等人,2018 年;Bonifati 等人,2019 年),它们用于超过 24% 的查询(以及超过 38% 的独特查询)。更一般地说,CRPQ 是查询图形结构数据库的基本构建块 (Barcel´o,2013 年)。随着知识库变得越来越大,对查询的推理(例如用于优化)变得越来越重要。最基本的推理任务之一是查询
2。如何向最终用户解释语义连接?如果系统无法向最终用户解释为什么连接可能很有趣,则发现有趣的连接是不够的。此问题与可解释的AI领域有关[11,12]。在我们的方法中,我们基于代表使用SPARQL构造查询的连接类型的预定义的形式,在我们的示例人员和地点之间预先计算两个实体之间的连接。这些预定义的连接及其解释可以使用层次搜索[13],基于代表实体属性的层次结构的搜索[13]。这允许通过探索过程在单个实体之间找到偶然的连接,但同样重要的是在较大的实体组之间找到联系。3。在搜索连接时如何制定查询和查询结果。
摘要在本文中,我们解决了回答用户自然语言提出的复杂问题的问题。由于传统信息检索系统不适合复杂问题,因此这些问题通常在知识库(例如Wikidata或dbpe-dia)上运行。我们提出了一种半自动方法,将自然语言问题转换为可以在知识库中轻松处理的SPARQL查询。该方法应用了分类技术,将自然语言问题与一组预先固定模板的正确查询模板相关联。我们方法的性质是半自动的,因为查询模板是由人类评估者手动编写的,他们是知识库的专家,而分类和查询处理步骤是完全自动的。我们在大规模CSQA数据集上进行了提问的实验证实了我们方法的有效性。
翻译研究需要生物组织多个尺度的数据。测序和多摩学技术的进步提高了这些数据的可用性,但研究人员面临着重大的整合挑战。知识图(kgs)用于对复杂现象进行建模,并存在自动构造它们的方法。但是,解决复杂的生物医学整合问题需要在知识建模的方式上灵活。此外,现有的KG施工方法提供了强大的工具,以固定或有限选择的成本在知识表示模型中。pheknowlator(表型知识翻译器)是一个语义生态系统,用于自动化公平(可访问,可访问,可互操作和可重复使用的)本体理学基础KGS的构建,具有完全可定制的知识表示。生态系统包括kg施工资源(例如,数据准备API),分析工具(例如,SPARQL端点资源和抽象算法)和基准(例如,预构建KGS)。我们通过系统地将其与现有的开源kg施工方法进行了系统的比较,并分析其计算性能时,我们评估了生态系统。具有灵活的知识表示,Pheknowlator可以完全自定义的KG,而不会损害性能或可用性。
动机:代谢组学研究旨在报告与特定实验条件有关的代谢特征(代谢物清单)。这些签名在识别生物标志物或个体的分类中具有重要作用,但是它们的生物学和生理解释仍然是一个挑战。为了支持这项任务,我们介绍了论坛:知识图(kg),提供了基于生命科学数据库和科学文献存储库的化学物质与生物医学概念之间关系的语义表示。结果:在生物学数据上使用语义网络框架使我们能够将基于本体论的推理应用于实体之间的新关系。我们表明,这些新关系提供了不同水平的抽象,并可以为新假设打开道路。我们使用富集分析估算每个提取关系,明确或推断的统计相关性,并将它们实例化为KG中的新知识,以支持结果解释/进一步的查询。可用性和实现:浏览和下载提取的关系的Web接口,以及直接探测整个论坛kg的SPARQL端点,可在https://forum-webapp.semantic-metabolo mics.fr上获得。可以在https://github.com/emetabohub/forum-疾病中获得复制Triplestore所需的代码。联系人:clement.frainay@inrae.fr补充信息:补充数据可从BioInformatics在线获得。