采访 Henok Biadglign Ademtew:创建阿姆哈拉语、吉兹语和英语并行数据集

非洲语言在自然语言处理 (NLP) 中没有得到很好的体现。这在很大程度上是由于缺乏训练模型的资源。Henok Biadglign Ademtew 和 Mikiyas Girma Birbo 创建了一个阿姆哈拉语、吉兹语和英语并行数据集,以帮助推进对资源匮乏语言的研究。我们与 Henok 谈论了这个项目,[…]

来源:ΑΙhub

非洲语言在自然语言处理 (NLP) 中没有得到很好的体现。这在很大程度上是由于缺乏训练模型的资源。Henok Biadglign Ademtew 和 Mikiyas Girma Birbo 创建了一个阿姆哈拉语、吉兹语和英语并行数据集,以帮助推进对资源匮乏的语言的研究。我们与 Henok 讨论了这个项目、数据集的创建以及面临的一些挑战。

创建了一个阿姆哈拉语、吉兹语和英语并行数据集

您能否向我们介绍一下吉兹语,并说明创建这个数据集的重要性?

非洲的大多数语言资源非常匮乏,可用的文本数据也不多。吉兹语在数字可用性方面资源尤其匮乏,但它是文本数据准备最充分的语言之一。这种语言与教会有着非常密切的联系,埃塞俄比亚的教堂里有很多吉兹语文本。你找到的每一份文件都以某种方式与教会(埃塞俄比亚东正教 Tewahedo 教堂)相关。你很可能也在欧洲的一些国家看到过它。在汉堡大学等大学,埃塞俄比亚和厄立特里亚研究下有 BS/MS 级吉兹语课程。

创建数据集有两个主要动机。就我个人而言,我想学习吉兹语,但除了简单的词典之外,没有数字资源。如果有人想为吉兹语制作一个应用程序(如 Duolingo),他们找不到能够创建它的资源。我们想弥补这一差距。其次,我们想创建一个教会背景之外的数据集。为什么不把 BBC 或 CNN 的新闻翻译成吉兹语呢?

我们注意到的另一件事是,当我们遇到埃塞俄比亚不同团体的研究论文时,他们中的大多数都没有分享他们的数据集。我们希望提供一个其他研究人员可以使用的开源数据集。我们的数据集可以作为人们可以在此基础上构建、探索和扩展的基础。

关于 Henok

标签: