MRAKL:低资源语言的多语言检索知识图构建

知识图代表现实世界实体及其之间的关系。多语言知识图构建(MKGC)是指自动构建或预测多语言环境中知识图的缺失实体的任务。在这项工作中,我们将MKGC任务重新制定为一个问题回答(QA)任务,并介绍MRAKL:基于检索的基于检索的一代(RAG)系统以执行MKGC。我们通过使用主体实体并在问题中链接关系来实现这一目标,并让我们的模型预测尾巴实体作为答案。我们的实验重点…

来源:Apple机器学习研究

知识图代表现实世界实体及其之间的关系。多语言知识图构建(MKGC)是指自动构建或预测多语言环境中知识图的缺失实体的任务。在这项工作中,我们将MKGC任务重新制定为一个问题回答(QA)任务,并介绍MRAKL:基于检索的基于检索的一代(RAG)系统以执行MKGC。我们通过使用主体实体并在问题中链接关系来实现这一目标,并让我们的模型预测尾巴实体作为答案。我们的实验主要关注两种低资源的语言:Tigrinya和Amharic。我们尝试使用高资源的语言阿拉伯语和英语进行跨语性转移。借助BM25猎犬,我们发现基于抹布的方法可以改善无文本设置的性能。此外,我们的消融研究表明,通过理想化的检索系统,MRAKL分别将Tigrinya和Amharic的精度提高了4.92和8.79个百分点。

    †加利福尼亚大学伯克利分校