变形金刚中的位置嵌入:绳索和alibi的数学指南

学习gpt的猿,绳索和不在场的位置嵌入 - 直觉,数学,pytorch代码以及在变形金刚的TinyStoriesthe后位置嵌入的实验:绳索和艾比利的数学指南首先出现在数据科学上。

来源:走向数据科学

,单词顺序是意义的基础。 “狗追赶猫”和“猫追逐狗”的短语使用了完全相同的单词,但是它们的序列传达了完全不同的事件。但是,为大多数现代语言模型提供动力的变压器体系结构并行处理所有输入令牌。这种并行处理使其非常有效,但也固有地对令牌的顺序视而不见。没有理解顺序的机制,该模型将把句子视为无序的单词袋。

为了解决这个问题,引入了位置嵌入。这些向量为模型提供了有关序列中每个令牌位置的明确信息。通过将令牌嵌入与位置嵌入相结合,该模型可以学会利用单词顺序并理解依赖它的上下文关系。

位置嵌入

本文提供了数学深入研究三个关键位置嵌入技术的深入研究,并配有代码示例以巩固您的理解。我们将探索:

    绝对位置嵌入(APE):“注意就是您所需要的”纸中提出的原始正弦方法,该方法将独特的位置向量分配给每个绝对位置。 [2]旋转位置嵌入(绳索):一种优雅的方法,通过在注意机制中旋转查询和关键向量来结合相对位置信息。 [4]带有线性偏见(alibi)的注意力:一种简单而有效的技术,避免了完全添加嵌入的嵌入,而是根据令牌之间的距离偏向注意力评分。 [5]
  • 绝对位置嵌入(APE):“注意就是您所需要的”纸中提出的原始正弦方法,该方法将独特的位置向量分配给每个绝对位置。 [2]
  • 绝对位置嵌入(APE): 旋转位置嵌入(绳索): 引起线性偏见(alibi)的注意:

    正弦波

    图1:从Wikipedia [3]

    \ [\ displaystyle

    \]

    r’