详细内容或原文请订阅后点击阅览
影响:跨复杂类型的变形形态学探索
大型语言模型 (LLM) 在各种多语言基准测试中取得了显着进展,并且越来越多地用于生成和评估非英语语言的文本。然而,虽然它们可能会产生流畅的输出,但仍不清楚这些模型在多大程度上真正掌握了这些语言的潜在语言复杂性,特别是在形态方面。为了研究这一点,我们引入了 IMPACT,这是一个专注于屈折形态的综合生成的评估框架,我们公开发布了该框架,旨在评估五个形态丰富的法学硕士表现……
来源:Apple机器学习研究大型语言模型 (LLM) 在各种多语言基准测试中取得了显着进展,并且越来越多地用于生成和评估非英语语言的文本。然而,虽然它们可能会产生流畅的输出,但仍不清楚这些模型在多大程度上真正掌握了这些语言的潜在语言复杂性,特别是在形态方面。为了研究这一点,我们引入了 IMPACT,这是一个综合生成的评估框架,专注于屈折形态,我们公开发布了该框架,旨在评估法学硕士在五种形态丰富的语言中的表现:阿拉伯语、俄语、芬兰语、土耳其语和希伯来语。 IMPACT 包括单元测试风格的案例,涵盖共享的和特定于语言的现象,从基本的动词变形(例如时态、数字、性别)到阿拉伯语的反向性别一致性以及芬兰语和土耳其语中的元音和谐等独特特征。我们评估了八名多语言法学硕士,尽管他们的英语表现出色,但他们在处理其他语言和不常见的形态模式时遇到了困难,尤其是在判断不合语法的例子时。我们还表明,思维链和思维模型会降低绩效。我们的工作揭示了法学硕士在处理语言复杂性方面的差距,指出了明显的改进空间。为了支持进一步的研究,我们公开发布了 IMPACT 框架。
