用像素级后备克服词汇约束

子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现…

来源:Apple机器学习研究

子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现基于像素的表示优于字节级的方法和标准词汇扩展。我们的方法增强了单语言模型的多语言能力,而无需大量的重新训练和通过输入压缩减少解码延迟。

    †哥本哈根大学‡穆罕默德·本·扎耶德大学人工智能大学**在Apple
  • †哥本哈根大学
  • ‡穆罕默德·本·扎耶德(Mohamed bin Zayed)人工智能大学
  • **在Apple
  • 图1:我们提议的NLP管道的插图,用于印地语到英语的机器翻译。指示仅解码器的语言模型,使用后备网络对源文本进行编码,并自动重新收获英语翻译。
    图2:在后备网络中,文本被分割为单词列表,呈现为包含字符bigrams的图像补丁,并将其投影到Patch Embeddings Zi,j。编码器输出单矢量单词表示yi,将输入嵌入到语言模型中。
    i,j i