※这是根据创意共享归因于非商业许可(http://creativecommons.org/licenses/by-nc/3.0/)发行的开放访问文章,允许在任何媒介中在任何媒介中进行无限制的非企业使用,分发,分发和繁殖,前提是原始作品被适当引用。
摘要在广泛的自然语言处理应用程序中大型语言模型(LLM)的最新成功为通往新的问答系统而不是知识图表的途径开辟了道路。然而,阻止其实施的主要障碍之一是缺乏将问题转化为相应的SPARQL查询的培训数据,尤其是在特定领域的KG中。为了克服这一挑战,在这项研究中,我们评估了几种策略,以微调Openllama LLM,以回答有关生命科学知识图的问题。特别是,我们提出了一种端到端数据增强方法,用于将一组现有查询扩展到给定知识图上,向较大的语义丰富的问题到SPARQL查询对的较大数据集,即使对于这些对稀缺的数据集也可以进行微调。在这种情况下,我们还研究了语义“线索”在查询中的作用,例如有意义的变量名称和内联评论。最后,我们评估了对现实世界中BGEE基因表达知识图的方法,并且与具有随机变量名称的基线相比,语义线索可以将模型性能提高高达33%,而没有评论。