详细内容或原文请订阅后点击阅览
机器学习“降临日历”第 24 天:Excel 中文本的转换器
直观、逐步地了解 Transformers 如何使用自注意力将静态词嵌入转换为上下文表示,并通过简单的示例和 Excel 友好的演练进行说明。机器学习“降临日历”第 24 天:Excel 中文本的 Transformers 帖子首先出现在《走向数据科学》上。
来源:走向数据科学。
在结束本系列之前,我要衷心感谢所有关注本系列、分享反馈和支持本系列的人,特别是迈向数据科学团队。
以变形金刚结束这个日历并不是巧合。变形金刚不仅仅是一个花哨的名字。它是现代大型语言模型的支柱。
关于 RNN、LSTM 和 GRU 有很多话要说。他们在序列建模中发挥了关键的历史作用。但今天,现代法学硕士绝大多数都是基于变形金刚。
Transformer 这个名字本身就标志着一种断裂。从命名的角度来看,作者可以选择诸如注意力神经网络之类的东西,与循环神经网络或卷积神经网络一致。作为笛卡尔思想,我会欣赏更一致的命名结构。但撇开命名不谈,变形金刚引入的概念转变完全证明了这种区别。
变压器可以以不同的方式使用。编码器架构通常用于分类。解码器架构用于下一个令牌预测,因此也用于文本生成。
在本文中,我们将只关注一个核心思想:注意力矩阵如何将输入嵌入转换为更有意义的东西。
在上一篇文章中,我们介绍了用于文本的一维卷积神经网络。我们看到 CNN 使用小窗口扫描句子,并在识别本地模式时做出反应。这种方法已经非常强大,但它有一个明显的局限性:CNN 只能查看局部。
今天,我们又向前迈进了一步。
Transformer 回答了一个根本不同的问题。
如果每个单词都可以同时查看所有其他单词怎么办?
1. 两个不同上下文中的同一个单词
为了理解为什么需要注意力,我们将从一个简单的想法开始。
我们将使用两个不同的输入句子,都包含单词 mouse,但在不同的上下文中使用。
鼠标的嵌入包含:
Q = 输入
