详细内容或原文请订阅后点击阅览
Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.
让我们了解 LLM 背后的 Transformer 模型如何分析用户提示等输入信息,以及它们如何“逐字”生成连贯、有意义且相关的输出文本。
来源:KDnuggets简介
感谢大型语言模型 (LLM),我们现在拥有令人印象深刻且非常有用的应用程序,例如 Gemini、ChatGPT 和 Claude 等。然而,很少有人意识到 LLM 背后的底层架构称为变压器。该架构经过精心设计,旨在以一种非常特殊且有些特殊的方式“思考”,即处理描述人类语言的数据。您是否有兴趣广泛了解这些所谓的变压器内部发生的情况?
本文以温和、易懂且非技术性的语气描述了 LLM 背后的 Transformer 模型如何分析用户提示等输入信息,以及如何逐字生成连贯、有意义且相关的输出文本(或者,技术性更强一点,逐个标记)。
初始步骤:让机器可以理解语言
首先要掌握的关键概念是人工智能模型并不能真正理解人类语言;他们只理解和操作数字,法学硕士背后的变压器也不例外。因此,有必要将人类语言(即文本)转换为变压器能够完全理解的形式,然后才能对其进行深度处理。
换句话说,进入 Transformer 的核心和最内层之前发生的前几个步骤主要是将原始文本转换为数字表示,以保留原始文本的关键属性和特征。让我们来看看这三个步骤。
标记化
令牌嵌入
接下来,每个 token ID 被转换为一个 d 维向量,它是一个大小为 d 的数字列表。这种将标记作为嵌入的完整表示就像对该标记的整体含义的描述,无论是单词、单词的一部分还是标点符号。神奇之处在于,与相似含义概念相关的标记(例如女王和皇后)将具有相似的关联嵌入向量。
