详细内容或原文请订阅后点击阅览
用像素级后备克服词汇约束
子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现…
来源:Apple机器学习研究子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现基于像素的表示优于字节级的方法和标准词汇扩展。我们的方法增强了单语言模型的多语言能力,而无需大量的重新训练和通过输入压缩减少解码延迟。
- †哥本哈根大学‡穆罕默德·本·扎耶德大学人工智能大学**在Apple