获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
随着解码步骤的数量增加,迭代非自回旋变压器的计算益处减小。作为一种补救措施,我们介绍了DI仍然是Untiple S Teps(Dims),这是一种简单而有效的蒸馏技术,以减少达到一定的翻译质量所需步骤的数量。截止的模型享有早期迭代的计算益处,同时从几个迭代步骤中保留了增强性。暗示着两个模型,即学生和老师。在多个解码步骤后,在老师通过缓慢移动的平均值跟随学生的同时,对学生进行了优化,以预测老师的输出。移动平均线使教师的知识更新,并提高了老师提供的标签的质量。在推断期间,学生用于翻译,并且不添加其他构成。我们验证了DIMS对在WMT'14 DE-EN的蒸馏和原始验证上获得7.8和12.9 BLEU点改进的各种模型的有效性。此工作的完整代码可在此处提供:https://github.com/ layer6ai-labs/dims。