详细内容或原文请订阅后点击阅览
通过 N-best 重新排序实现精确知识提炼
我们建议利用 n-best 重新排序来增强序列级知识蒸馏 (Kim and Rush, 2016),其中我们从前 n 个最佳假设中提取学生模型训练数据的伪标签,并利用具有不同归纳偏差、目标函数或架构的多样化模型集(包括一些公开可用的大型语言模型)来挑选最高质量的假设作为标签。通过在 WMT’21 德语 ↔ 英语和中文 ↔ 英语翻译任务上的实验验证了我们提案的有效性。我们的结果表明,利用……
来源:Apple机器学习研究我们建议利用 n-best 重新排序来增强序列级知识蒸馏 (Kim and Rush, 2016),其中我们从前 n 个最佳假设中提取学生模型训练数据的伪标签,并利用具有不同归纳偏差、目标函数或架构的多样化模型集(包括一些公开可用的大型语言模型)来挑选最高质量的假设作为标签。我们建议的有效性已通过对 WMT'21 德语 - 英语和中文 - 英语翻译任务的实验得到验证。我们的结果表明,利用我们的 n-best 重新排序器生成的伪标签可以显著提高学生模型的准确性。事实上,我们最好的学生模型实现了与来自 (Tran et al., 2021) 的大型翻译模型相当的准确度,该模型具有 47 亿个参数,但参数数量却少了两个数量级。