详细内容或原文请订阅后点击阅览
什么是 NLP 中的标记化?
为什么重要:标记化是自然语言处理 (NLP) 中的常见任务。它是传统 NLP 方法(如 Count Vectorizer)和基于高级深度学习的架构(如 Transformers)的基本步骤。
来源:人工智能+简介
简介标记化是自然语言处理 (NLP) 中的常见任务。它是传统 NLP 方法(如 Count Vectorizer)和高级基于深度学习的架构(如 Transformers)的基本步骤。
来源:YouTube | 标记化。
YouTube | 标记化。标记化
标记化标记化是一种将一段文本分成称为标记的较小单元的方法。在这里,标记可以是单词、字符或子词。因此,标记化大致可分为 3 种类型 - 单词、字符和子词 (n-gram 字符) 标记化。
另请阅读:使用人工智能使出版盈利。
另请阅读:使用人工智能使出版盈利。 另请阅读:使用人工智能使出版业盈利。 使用人工智能使出版业盈利。例如,考虑这句话:“永不放弃希望”。
形成标记的最常见方式是基于空格。假设空格作为分隔符,则句子的标记化会产生 3 个标记 - Never-lose-hope。由于每个标记都是一个单词,因此它成为单词标记化的一个例子。
类似地,标记可以是字符或子词。例如,让我们考虑“更聪明”:
字符标记:s-m-a-r-t-e-r
子词标记:smart-er
由于标记是自然语言的构建块,因此处理原始文本的最常见方式发生在标记级别。
另请阅读:随着人工智能的改进,民主将取得胜利。
另请阅读:随着人工智能的改进,民主将取得胜利。 另请阅读:随着人工智能的改进,民主将取得胜利。 随着人工智能的改进,民主将取得胜利。Transformer
Transformer例如,基于 Transformer 的模型(NLP 中最先进的 (SOTA) 深度学习架构)在 token 级别处理原始文本。同样,最流行的 NLP 深度学习架构(如 RNN、GRU 和 LSTM)也在 token 级别处理原始文本。