详细内容或原文请订阅后点击阅览
ConvKGYarn:使用大型语言模型构建可配置、可扩展的对话知识图谱 QA 数据集
大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式,包括文本和语音,每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性,为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集,但它们难以跟上快速变化的用户信息需求。我们提出……
来源:Apple机器学习研究大语言模型(LLM)和会话助理的快速演变需要动态,可扩展和可配置的对话数据集进行培训和评估。这些数据集必须适合各种用户交互模式,包括文本和语音,每个语音都会提出独特的建模挑战。知识图(kgs)具有结构化和不断发展的性质,为当前和精确的知识提供了理想的基础。尽管存在基于人类的KG的对话数据集,但他们努力与快速变化的用户信息需求保持同步。我们提出Convkgyarn,这是一种可扩展的方法,用于生成最新和可配置的对话kgqa数据集。定性心理测量学分析表明,Convkgyarn在生成可与各种指标的流行对话KGQA数据集相当的高质量数据方面的有效性。 Convkgyarn擅长遵守人类的互动配置,并以明显更大的规模运行。我们通过在不同的对话中测试LLM来展示Convkgyarn的实用程序 - 在对话kgqa集中探索模型行为,并以基于同一kg事实集的不同配置进行了不同的配置。我们的结果突出了Convkgyarn改善KGQA基础并评估LLM的参数知识的能力,从而为对话助手的不断发展的景观提供了强大的解决方案。