知识图谱问答 (KGQA) 的流行模型,包括语义解析和端到端 (E2E) 模型,解码后会变成一个受限的 KG 关系空间。尽管 E2E 模型在测试时可以容纳新实体,但这种约束意味着它们无法访问新关系,每当向 KG 添加新关系时,都需要进行昂贵且耗时的重新训练。我们提出了 KG-Flex,一种用于 E2E KGQA 的新架构,它将解码为一个连续的关系嵌入空间,从而允许在测试时使用新关系。KG-Flex 是第一个支持使用全新三元组进行 KG 更新的架构,无需重新训练,同时仍支持通过简单、弱监督 (Q, A) 对进行端到端训练。我们的架构节省了重新训练的时间、精力和数据资源,同时仍保持了标准基准上的性能。我们进一步展示了新关系的零样本使用,在三个 QA 数据集上实现了高达 82% 的基线命中率@1。KG-Flex 还可以进行微调,所需时间明显短于完全重新训练;对目标数据进行 10% 完全训练的微调可将命中率@1 提高到基线的 89-100%。
在生物信息学中,查询复杂知识图(kgs)的能力对于提取有意义的见解至关重要。但是,手动制作SPARQL查询,尤其是跨多个连接的KGS的联合查询,甚至对于专家而言,甚至可能是一项耗时且具有挑战性的任务。这导致人们对知识图答录(KGQA)系统的需求不断增长,该系统可以将自然语言查询转化为SPARQL,从而弥合用户问题与可用结构化数据之间的差距。大型语言模型(LLMS)提供了一个令人兴奋的机会来应对这一挑战,从而有可能自动从自然语言输入中产生准确的SPARQL查询。然而,尽管LLM在该领域表现出了令人印象深刻的能力[1] [2],但当前的系统难以处理大规模,不断发展的kg,例如SIB Swiss Swiss生物信息学研究所的目录[3]。在这项工作中,我们提供了一种解决方案,旨在帮助SIB的生物信息学KGS [4],例如Uniprot [5],BGEE [6]或OMA [7],以探索和查询可用数据。我们的方法利用LLM和端点元数据来生成SPARQL查询,同时解决动态整合不断发展的数据集的挑战,而无需持续不断的再培训。通过提供可扩展的系统1,以适应生物信息学知识的复杂且不断变化的景观,我们的目标是显着减少在联邦公里范围内查询的时间和专业知识所需的时间和专业知识。
摘要。在本文中,我们提出了壁虎,这是荷兰统计数据(Centraal bureau de statistiek)数据的知识图答录(KGQA)系统。QA在产生相关答案以及防止幻觉方面构成了巨大的挑战。这是语言模型中发现的一种现象,并在尝试使用这些模型的事实质量检查时会产生问题。为了克服这些局限性,荷兰统计数据使用的ODATA4数据用于创建知识图,其中答案生成解码的构架是扎根的,从而确保了忠实的答案。处理问题时,Gecko执行实体和模式检索,是否会在需要的情况下进行架构受限的表达式解码,并将生成的表达式执行作为ODATA4查询以检索信息。实现了一种新的方法,以使用编码器模型执行受约束的基于知识的表达解码。评估了稀疏和密集的实体检索方法。虽然编码器模型未达到生产就绪的性能,但实验显示了使用稀疏实体回收者基于规则基线的有希望的结果。此外,定性用户测试的结果为正。因此,我们为部署提出建议,帮助指导荷兰统计数据的用户更快地找到答案。