详细内容或原文请订阅后点击阅览
评估数据质量在训练双语语言模型中的作用
双语和多语言语言模型为跨不同语言和用户扩展 NLP 系统提供了一条有前途的道路。然而,它们的性能通常在不同语言之间存在很大差异,因为先前的研究表明,添加更多语言可能会降低某些语言(例如英语)的性能,同时改善其他语言(通常是数据受限的语言)。在这项工作中,我们通过比较双语和单语语言模型来调查这些不一致的原因。我们的分析表明,不平等的数据质量(而不仅仅是数据数量)是性能的主要驱动因素......
来源:Apple机器学习研究双语和多语言语言模型为跨不同语言和用户扩展 NLP 系统提供了一条有前途的道路。然而,它们的性能通常在不同语言之间存在很大差异,因为先前的研究表明,添加更多语言可能会降低某些语言(例如英语)的性能,同时改善其他语言(通常是数据受限的语言)。在这项工作中,我们通过比较双语和单语语言模型来调查这些不一致的原因。我们的分析表明,不平等的数据质量(而不仅仅是数据数量)是双语环境中性能下降的主要驱动因素。我们提出了一种简单而有效的数据过滤策略,仅使用高质量的英语数据来选择更高质量的双语训练数据。应用于法语、德语和中文时,我们的方法将单语性能提高了 2-4%,并将双语模型性能差距缩小至 1%。这些结果凸显了多语言预训练中数据质量被忽视的重要性,并为平衡性能提供了实用的方法。
