在生物信息学中,查询复杂知识图(kgs)的能力对于提取有意义的见解至关重要。但是,手动制作SPARQL查询,尤其是跨多个连接的KGS的联合查询,甚至对于专家而言,甚至可能是一项耗时且具有挑战性的任务。这导致人们对知识图答录(KGQA)系统的需求不断增长,该系统可以将自然语言查询转化为SPARQL,从而弥合用户问题与可用结构化数据之间的差距。大型语言模型(LLMS)提供了一个令人兴奋的机会来应对这一挑战,从而有可能自动从自然语言输入中产生准确的SPARQL查询。然而,尽管LLM在该领域表现出了令人印象深刻的能力[1] [2],但当前的系统难以处理大规模,不断发展的kg,例如SIB Swiss Swiss生物信息学研究所的目录[3]。在这项工作中,我们提供了一种解决方案,旨在帮助SIB的生物信息学KGS [4],例如Uniprot [5],BGEE [6]或OMA [7],以探索和查询可用数据。我们的方法利用LLM和端点元数据来生成SPARQL查询,同时解决动态整合不断发展的数据集的挑战,而无需持续不断的再培训。通过提供可扩展的系统1,以适应生物信息学知识的复杂且不断变化的景观,我们的目标是显着减少在联邦公里范围内查询的时间和专业知识所需的时间和专业知识。
生物数据库中的大量数据泛滥提供了医疗保健和生命科学领域的各种信息。这些数据库为研究人员,科学家和工作专业人员提供了加速发现,开发新的假设并确定新型模式的机会[1]。另一方面,这些数据库需要实现复杂的存储和检索系统来从这些大数据库中检索信息。这成为研究人员和科学家的挑战[2]。作为RDF知识图发布的大多数生物数据库都依赖于SPARQL(SPARQL协议和RDF查询语言)等复杂的查询语言[3]来从数据库中检索信息。没有技术知识或有限的技术知识,研究人员和域用户无法编写准确且可靠的SPARQL查询,这可能会成为利用这些数据库的全部潜力的瓶颈[3] [1]。SPARQL是一种查询语言,可以使用户从数据库中查询信息[4] [3]。许多生物数据库利用RDF(资源描述框架)数据模型,其中RDF表示信息为适用于蛋白质功能(例如蛋白质功能,基因相互作用)的复杂生物学关系的互连三元组(受试者,谓词,对象)[2] [2] [4]。RDF数据可通过SPARQL端点提供,而SPARQL查询语言是专门设计用于查询RDF数据的,可以有效
摘要在广泛的自然语言处理应用程序中大型语言模型(LLM)的最新成功为通往新的问答系统而不是知识图表的途径开辟了道路。然而,阻止其实施的主要障碍之一是缺乏将问题转化为相应的SPARQL查询的培训数据,尤其是在特定领域的KG中。为了克服这一挑战,在这项研究中,我们评估了几种策略,以微调Openllama LLM,以回答有关生命科学知识图的问题。特别是,我们提出了一种端到端数据增强方法,用于将一组现有查询扩展到给定知识图上,向较大的语义丰富的问题到SPARQL查询对的较大数据集,即使对于这些对稀缺的数据集也可以进行微调。在这种情况下,我们还研究了语义“线索”在查询中的作用,例如有意义的变量名称和内联评论。最后,我们评估了对现实世界中BGEE基因表达知识图的方法,并且与具有随机变量名称的基线相比,语义线索可以将模型性能提高高达33%,而没有评论。