详细内容或原文请订阅后点击阅览
简单地实现了从头开始的注意机制
注意力如何帮助诸如RNNS之类的模型减轻消失的梯度问题并捕获单词之间的远程依赖性,从而首先在数据科学方面出现了从头开始的注意机制的简单实现。
来源:走向数据科学注意机制通常与变压器结构相关,但已在RNN中使用。在机器翻译或MT(例如英语 - 意大利语)任务中,当您想预测下一个意大利语时,您需要模型来集中精力或注意最重要的英语单词,这些单词有用,这些单词有用,这些单词有用。
注意机制我不会介绍RNN的细节,但是注意力帮助这些模型减轻了消失的梯度问题并捕获单词之间更多的远距离依赖性。
在某个时刻,我们了解到唯一重要的是注意机制,整个RNN架构都是过分的。因此,您需要注意的一切!
您需要注意的全部!变形金刚中的自我注意力
经典注意力指示输出序列中的单词应与输入序列中的单词有关。这在诸如MT之类的序列到序列任务中很重要。
自我注意力是一种特定的注意力。它在同一序列中的任意两个元素之间运行。它提供了有关“相关”单词在同一句子中的“相关性”的信息。
自我注意力对于序列中给定的令牌(或单词),自我发作会产生与序列中所有其他令牌相对应的注意力列表。此过程应用于句子中的每个令牌,获得了注意力的矩阵(如图所示)。
这是一般的想法,实际上,事情要复杂一些,因为我们想在神经网络中添加许多可学习的参数,让我们看看如何。
k,v,q表示
我们的模型输入是一个句子,例如“我的名字是Marcello Politi”。随着令牌化的过程,句子被转换为[2、6、8、3、1]之类的数字列表。
我叫Marcello Politi” 令牌化在将句子喂入变压器之前,我们需要为每个令牌创建一个密集的表示。
现在添加一些复杂性。
键,值 查询这个神奇的数学操作是什么?
s