分析法学硕士知识和推理基准中的辩证偏差

大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些更……

来源:Apple机器学习研究

大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些比其他规则更重要:三个特定的语法规则(存在主义的“it”、零系词和你们)可以解释在多种方言中观察到的大部分性能下降。我们呼吁未来研究针对个体、高影响力语法结构的偏见缓解方法。

    † 康奈尔大学,纽约州伊萨卡‡ 康奈尔科技大学,纽约州
  • † 纽约州伊萨卡康奈尔大学
  • ‡ 康奈尔科技大学,纽约州,纽约