Transformers 在深度学习和 NLP 中的工作原理：直观介绍 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Transformers 在深度学习和 NLP 中的工作原理：直观介绍

2020年12月24日 00:00 33 Comments

对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后，我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效

来源:AI夏令营

2017 年的著名论文“Attention is all you need”改变了我们对注意力的思考方式。有了足够的数据、矩阵乘法、线性层和层规范化，我们就可以执行最先进的机器翻译。

Attention is all you need

尽管如此，2020 年绝对是 transformers 的一年！从自然语言开始，它们现在进入了计算机视觉任务。我们是如何从注意力转向自我注意力的？为什么 transformer 工作得如此好？它成功的关键因素是什么？

继续阅读并找出答案！

在我看来，transformer 并不难掌握。它是所有可能令人困惑的周围概念的组合，包括注意力。这就是为什么我们会慢慢围绕所有基本概念进行构建。

注意力

使用循环神经网络 (RNN)，我们习惯于按顺序处理序列以保持句子的顺序。为了满足该设计，每个 RNN 组件（层）都需要前一个（隐藏）输出。因此，堆叠的 LSTM 计算是按顺序执行的。

直到 transformers 出现！Transformer 的基本构建块是自注意力。首先，我们需要克服顺序处理、循环和 LSTM！

怎么做？

只需更改输入表示！

有关指导您学习 NLP 的完整书籍，请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)

如需一本完整的书籍来指导您学习 NLP，请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)

自然语言处理的深度学习 aisummer35 35% 折扣

Transformer 革命始于一个简单的问题：我们为什么不提供整个输入序列？隐藏状态之间没有依赖关系！这可能很酷！

标记化 不是 X = x1 x 1 , x2 x 2 ,

处理学习构建 need 线性输入使用 RNN transformer 自然语言句子隐藏 transformers 折扣序列注意力 Attention