单词和字符之间:NLP 中开放词汇建模和标记化的简史

在本次调查中,我们通过展示如何提出和评估基于学习分割的单词和字符混合方法以及基于子词的方法,将前神经和神经时代的几条工作线联系起来。我们得出的结论是,对于所有应用程序来说,可能永远不会有万能的解决方案,而且认真考虑标记化对于许多应用程序来说仍然很重要

来源:La Biblia de la IA

🔘 论文页面:arxiv.org/abs/2112.10508

🔘 论文页面

摘要

«我们想要建模的文本单位是什么?从字节到多词表达,文本可以在许多粒度上进行分析和生成。直到最近,大多数自然语言处理 (NLP) 模型都是对单词进行操作,将它们视为离散和原子标记,但从字节对编码 (BPE) 开始,基于子词的方法已在许多领域占据主导地位,可以实现小词汇量,同时仍允许快速推理。字符级模型或字节级处理的终结是?在本次调查中,我们通过展示如何提出和评估基于学习分割的单词和字符的混合方法以及基于子词的方法,将前神经和神经时代的几条工作线连接起来。我们得出的结论是,对于所有应用程序来说,可能永远不会有一个万能的解决方案,而且认真考虑标记化对于许多应用程序来说仍然很重要。”

« « » »

作者

Sabrina J. Mielke、Zaid Alyafeai、Elizabeth Salesky、Colin Raffel、Manan Dey、Matthias Gallé、Arun Raja、Chenglei Si、Wilson Y. Lee、Benoît Sagot、Samson Tan

喜欢这篇文章吗?关注此博客以了解更多信息。

喜欢这篇文章吗?关注此博客以了解更多信息。