获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Overcoming Vocabulary Constraints with Pixel-level Fallback
子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现…