机器学习“降临日历”第 24 天:Excel 中文本的转换器

直观、逐步地了解 Transformers 如何使用自注意力将静态词嵌入转换为上下文表示,并通过简单的示例和 Excel 友好的演练进行说明。机器学习“降临日历”第 24 天:Excel 中文本的 Transformers 帖子首先出现在《走向数据科学》上。

来源:走向数据科学

在结束本系列之前,我要衷心感谢所有关注本系列、分享反馈和支持本系列的人,特别是迈向数据科学团队。

以变形金刚结束这个日历并不是巧合。变形金刚不仅仅是一个花哨的名字。它是现代大型语言模型的支柱。

关于 RNN、LSTM 和 GRU 有很多话要说。他们在序列建模中发挥了关键的历史作用。但今天,现代法学硕士绝大多数都是基于变形金刚。

Transformer 这个名字本身就标志着一种断裂。从命名的角度来看,作者可以选择诸如注意力神经网络之类的东西,与循环神经网络或卷积神经网络一致。作为笛卡尔思想,我会欣赏更一致的命名结构。但撇开命名不谈,变形金刚引入的概念转变完全证明了这种区别。

变压器可以以不同的方式使用。编码器架构通常用于分类。解码器架构用于下一个令牌预测,因此也用于文本生成。

在本文中,我们将只关注一个核心思想:注意力矩阵如何将输入嵌入转换为更有意义的东西。

在上一篇文章中,我们介绍了用于文本的一维卷积神经网络。我们看到 CNN 使用小窗口扫描句子,并在识别本地模式时做出反应。这种方法已经非常强大,但它有一个明显的局限性:CNN 只能查看局部。

今天,我们又向前迈进了一步。

Transformer 回答了一个根本不同的问题。

如果每个单词都可以同时查看所有其他单词怎么办?

1. 两个不同上下文中的同一个单词

为了理解为什么需要注意力,我们将从一个简单的想法开始。

我们将使用两个不同的输入句子,都包含单词 mouse,但在不同的上下文中使用。

鼠标的嵌入包含:

  • 强烈的动物成分
  • 强大的技术组件
  • Q = 输入