论文演练:注意力就是你所需要的一切

从头开始​​实现 Transformer 的完整指南继续阅读 Towards Data Science »

来源:走向数据科学

简介

标题所示,在本文中,我将与Pytorch从头开始实现变形金刚的体系结构 - 是的,从头开始。在进入它之前,让我简要概述体系结构。 Transformer首先是在Vaswani等人撰写的题为“关注就是您所需要的”的论文中引入的。早在2017年[1]。该神经网络模型旨在执行SEQ2SEQ(序列到序列)任务,在该任务中,它接受序列作为输入,并有望返回输出的另一个序列,例如机器翻译和问题回答。

注意力是您需要的 seq2seq

在引入变压器之前,我们通常使用基于RNN的模型(例如LSTM或GRU)来完成SEQ2SEQ任务。这些模型确实能够捕获上下文,但它们以依次的方式进行。这种方法使捕获远程依赖性是一项挑战,尤其是当重要环境远远落后于当前时间段时。相比之下,变压器可以自由地参加其认为重要的序列的任何部分,而不会受到顺序处理的约束。

变压器组件