Transformers 在深度学习和 NLP 中的工作原理:直观介绍

对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效

来源:AI夏令营

2017 年的著名论文“Attention is all you need”改变了我们对注意力的思考方式。有了足够的数据、矩阵乘法、线性层和层规范化,我们就可以执行最先进的机器翻译。

Attention is all you need

尽管如此,2020 年绝对是 transformers 的一年!从自然语言开始,它们现在进入了计算机视觉任务。我们是如何从注意力转向自我注意力的?为什么 transformer 工作得如此好?它成功的关键因素是什么?

继续阅读并找出答案!

在我看来,transformer 并不难掌握。它是所有可能令人困惑的周围概念的组合,包括注意力。这就是为什么我们会慢慢围绕所有基本概念进行构建。

注意力

使用循环神经网络 (RNN),我们习惯于按顺序处理序列以保持句子的顺序。为了满足该设计,每个 RNN 组件(层)都需要前一个(隐藏)输出。因此,堆叠的 LSTM 计算是按顺序执行的。

直到 transformers 出现!Transformer 的基本构建块是自注意力。首先,我们需要克服顺序处理、循环和 LSTM!

怎么做?

只需更改输入表示!

有关指导您学习 NLP 的完整书籍,请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)

如需一本完整的书籍来指导您学习 NLP,请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)

自然语言处理的深度学习 aisummer35 35% 折扣

表示输入句子

集合和标记化

Transformer 革命始于一个简单的问题:我们为什么不提供整个输入序列?隐藏状态之间没有依赖关系!这可能很酷!

标记化 不是 X = x1 x 1 , x2 x 2 ,