详细内容或原文请订阅后点击阅览
为什么多年来我们一直在优化法学硕士中的错误内容
训练中的简单转变可以释放远见、更快的推理和更好的推理。为什么我们多年来一直在法学硕士中优化错误的事情,这篇文章首先出现在《走向数据科学》上。
来源:走向数据科学标准大型语言模型 (LLM) 的训练目标很简单:下一个标记预测 (NTP)。通过在给定先前上下文的情况下最大化紧随其后的标记 xt+1 的概率,模型已经实现了显着的流畅性和推理能力。
xt+1 t+1然而,这种方法确实效率很低,因为模型在预测填充词(例如“the”、“and”、“have”)时必须花费与预测携带信息的词(例如“red”、“apple”、“lazy”)相同的计算量。由于您在英语中看到的 50% 以上的单词都是填充词,这一事实加剧了这种情况(Nordquist,2024)3。这就提出了一个实际问题:是否所有单词都需要完整的推理周期才能进行预测,或者模型是否在预测之前很久就已经将填充词置于其隐藏状态?
3MTP 的动机
最近的实证研究支持了 Transformer 能够处理的不仅仅是下一步的想法。 (Pal 等人,2023)1 证明,Transformer 模型的内部表示通常在生成未来文本之前就对其轨迹进行编码。
1为了说明这一点,研究人员进行了一项“移植”实验。他们从处理“麦迪逊广场花园位于……”这句话的模型中提取了隐藏状态——就在它即将预测下一个单词为“新”之前。然后,他们将这个向量放入一个处理完全不相关的上下文的模型中,例如“告诉我一些关于……的事情”,尽管有不相关的提示,该模型还是自动回归完成了句子“告诉我一些关于纽约市的事情”。这证实了该模型不仅针对下一个标记进行编码,而且还针对整个未来序列进行编码。
2 nMTP 架构:并行化预测
为了实现这一点,作者将模型分为两个组件:
共享中继 (fs): fs s x1:t t