详细内容或原文请订阅后点击阅览
LLM 包含很多参数。但参数是什么?
麻省理工学院技术评论解释:让我们的作者解开复杂、混乱的技术世界,帮助您了解接下来会发生什么。您可以在此处阅读该系列的更多内容。我写这篇文章是因为我的一位编辑在半夜醒来并在床头记事本上潦草写下:“什么是……
来源:MIT Technology Review _人工智能训练模型时,其词汇表中的每个单词都会被分配一个数值,该数值根据该单词在模型训练数据中无数示例中的出现方式来捕获该单词相对于所有其他单词的含义。
每个单词都被一种代码替换?
是的。但还有更多内容。代表每个单词的数值(嵌入)实际上是一个数字列表,列表中的每个数字代表模型从训练数据中提取的含义的不同方面。这个数字列表的长度是法学硕士设计者在训练法学硕士之前可以指定的另一件事。常见的大小是 4,096。
LLM 中的每个单词都由 4,096 个数字的列表表示?
是的,这是一个嵌入。这些数字中的每一个都会在训练期间进行调整。嵌入长度为 4,096 个数字的法学硕士据说有 4,096 个维度。
为什么是 4,096?
它可能看起来像一个奇怪的数字。但法学硕士(就像在计算机芯片上运行的任何东西一样)在 2 的幂上效果最好——2、4、8、16、32、64 等等。 LLM 工程师发现 4,096 是 2 的幂,达到了能力和效率之间的最佳平衡点。尺寸较小的模型能力较差;具有更多维度的模型对于训练和运行来说太昂贵或太慢。
使用更多的数字可以使法学硕士能够捕获非常细粒度的信息,例如一个单词在许多不同的上下文中如何使用、它可能具有哪些微妙的含义、它与其他单词的关系等等。
早在 2 月份,OpenAI 就发布了 GPT-4.5,这是该公司迄今为止最大的法学硕士(有人估计其参数数量超过 10 万亿)。 OpenAI 的研究科学家 Nick Ryder 负责该模型的研究,当时他告诉我,更大的模型可以处理额外的信息,例如情绪暗示,例如当说话者的言语表示敌意时:“人类对话中出现的所有这些微妙模式,这些都是越来越大的模型会捕捉到的信息。”
