详细内容或原文请订阅后点击阅览
Transformers 在深度学习和 NLP 中的工作原理:直观介绍
对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效
来源:AI夏令营2017 年的著名论文“Attention is all you need”改变了我们对注意力的思考方式。有了足够的数据、矩阵乘法、线性层和层规范化,我们就可以执行最先进的机器翻译。
Attention is all you need尽管如此,2020 年绝对是 transformers 的一年!从自然语言开始,它们现在进入了计算机视觉任务。我们是如何从注意力转向自我注意力的?为什么 transformer 工作得如此好?它成功的关键因素是什么?
继续阅读并找出答案!
在我看来,transformer 并不难掌握。它是所有可能令人困惑的周围概念的组合,包括注意力。这就是为什么我们会慢慢围绕所有基本概念进行构建。
注意力使用循环神经网络 (RNN),我们习惯于按顺序处理序列以保持句子的顺序。为了满足该设计,每个 RNN 组件(层)都需要前一个(隐藏)输出。因此,堆叠的 LSTM 计算是按顺序执行的。
直到 transformers 出现!Transformer 的基本构建块是自注意力。首先,我们需要克服顺序处理、循环和 LSTM!
怎么做?
只需更改输入表示!
有关指导您学习 NLP 的完整书籍,请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)
如需一本完整的书籍来指导您学习 NLP,请查看“自然语言处理的深度学习”一书。使用代码 aisummer35 即可从您最喜欢的 AI 博客获得 35% 的独家折扣 :)
自然语言处理的深度学习 aisummer35 35% 折扣表示输入句子
集合和标记化
Transformer 革命始于一个简单的问题:我们为什么不提供整个输入序列?隐藏状态之间没有依赖关系!这可能很酷!
标记化 不是