改进机器翻译处理语法性别歧义的方式

机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……

来源:Apple机器学习研究

机器翻译(MT)使人们能够与他人建立联系并在语言障碍中与内容互动。语法性别对这些系统提出了艰巨的挑战,因为某些语言需要特异性的特异性,而这些术语在其他语言中可能是模棱两可的或中立的。例如,在将英语单词“护士”翻译成西班牙语时,必须决定女性“ Enfermera”还是男性“ Enfermero”是否合适。但是,尤其是在缺乏上下文线索的情况下,例如在翻译单个句子时,模型无法确定哪个是正确的。对于许多欧洲语言来说,这一挑战尤其普遍,这通常需要性别特异性,不仅需要专业头衔,而且还需要儿童,朋友和成员以及有时对动物等术语。通常,机器翻译系统将偏向其培训数据中最普遍的性别形式,但是除了不一定为用户提供准确的翻译外,这可能会无意间加强有害的社会刻板印象。

为了解决这个问题,并使人们在机器翻译中对语法性别的更多控制,我们在GEBNLP 2024(NLP中的性别偏见研讨会)中介绍了机器翻译中的性别替代方案。我们的方法训练翻译模型,可以使用户对性别实体的翻译方式进行细粒度控制,而无需任何其他组件或推理开销。通过我们的方法,单一的翻译推理通过为性别术语提供了所有语法上正确的替代方案,从而使用户能够选择最适合其上下文的方法。除了发布这项工作外,我们还发布了培训和测试数据集,以使更广泛的ML社区更容易地开发系统,从而可以控制对性别实体的翻译。

在机器翻译中生成性别替代品 发布培训和测试数据集 翻译 n (见图1)