这是LLM分解语言的方式

令牌化背后的科学和艺术帖子这是LLMS首先出现在数据科学上的语言的方式。

来源:走向数据科学

您还记得Openai于2020年发布GPT-3时的炒作吗?尽管不是该系列中的第一个,但GPT-3由于其令人印象深刻的文本生成功能而获得了广泛的流行。从那时起,一组大型语言模型(LLM)淹没了AI景观。 黄金问题是:您是否曾经想过Chatgpt或其他LLMS是如何分解语言的? 如果您还没有,我们将讨论LLM在培训和推理期间对其进行文本输入处理的机制。原则上,我们称其为象征化。

llms 黄金问题是:您是否曾经想过chatgpt或任何其他LLMS是如何分解语言的?

本文的灵感来自YouTube视频,标题为Tesla前AI高级总监Andrej Karpathy的YouTube录像带,例如Chatgpt,例如Chatgpt。强烈建议那些想深入了解LLM背后的复杂性的人,强烈建议他的一般观众视频系列。

深入研究LLM,例如chatgpt Andrej Karpathy 在进入主要主题之前,我需要您了解LLM的内部工作。在下一部分中,我将分解语言模型及其基础体系结构的内部内容。如果您已经熟悉神经网络和LLM,则可以跳过下一节而不会影响阅读体验。 大语言模型的内部 llms由变压器神经网络组成。将神经网络视为巨大的数学表达式。神经网络的输入是一系列令牌,通常通过嵌入层来处理,这些层将令牌转换为数值表示。就目前而言,将令牌视为输入数据的基本单位,例如单词,短语或字符。在下一部分中,我们将探讨如何深入从输入文本数据创建令牌。当我们将这些输入馈送到网络时,它们将被混合成巨大的数学表达,以及这些神经网络的参数或权重。 https://bbycroft.net/llm

Andrej Karpathy

在进入主要主题之前,我需要您了解LLM的内部工作。在下一部分中,我将分解语言模型及其基础体系结构的内部内容。如果您已经熟悉神经网络和LLM,则可以跳过下一节而不会影响阅读体验。

大语言模型的内部

llms由变压器神经网络组成。将神经网络视为巨大的数学表达式。神经网络的输入是一系列令牌,通常通过嵌入层来处理,这些层将令牌转换为数值表示。就目前而言,将令牌视为输入数据的基本单位,例如单词,短语或字符。在下一部分中,我们将探讨如何深入从输入文本数据创建令牌。当我们将这些输入馈送到网络时,它们将被混合成巨大的数学表达,以及这些神经网络的参数或权重。https://bbycroft.net/llmhttps://bbycroft.net/llm