机器学习“降临日历”第 24 天：Excel 中文本的转换器 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

机器学习“降临日历”第 24 天：Excel 中文本的转换器

2025年12月24日 19:52 33 Comments

直观、逐步地了解 Transformers 如何使用自注意力将静态词嵌入转换为上下文表示，并通过简单的示例和 Excel 友好的演练进行说明。机器学习“降临日历”第 24 天：Excel 中文本的 Transformers 帖子首先出现在《走向数据科学》上。

来源:走向数据科学

。

在结束本系列之前，我要衷心感谢所有关注本系列、分享反馈和支持本系列的人，特别是迈向数据科学团队。

以变形金刚结束这个日历并不是巧合。变形金刚不仅仅是一个花哨的名字。它是现代大型语言模型的支柱。

关于 RNN、LSTM 和 GRU 有很多话要说。他们在序列建模中发挥了关键的历史作用。但今天，现代法学硕士绝大多数都是基于变形金刚。

Transformer 这个名字本身就标志着一种断裂。从命名的角度来看，作者可以选择诸如注意力神经网络之类的东西，与循环神经网络或卷积神经网络一致。作为笛卡尔思想，我会欣赏更一致的命名结构。但撇开命名不谈，变形金刚引入的概念转变完全证明了这种区别。

变压器可以以不同的方式使用。编码器架构通常用于分类。解码器架构用于下一个令牌预测，因此也用于文本生成。

在本文中，我们将只关注一个核心思想：注意力矩阵如何将输入嵌入转换为更有意义的东西。

在上一篇文章中，我们介绍了用于文本的一维卷积神经网络。我们看到 CNN 使用小窗口扫描句子，并在识别本地模式时做出反应。这种方法已经非常强大，但它有一个明显的局限性：CNN 只能查看局部。

今天，我们又向前迈进了一步。

Transformer 回答了一个根本不同的问题。

如果每个单词都可以同时查看所有其他单词怎么办？

为了理解为什么需要注意力，我们将从一个简单的想法开始。

我们将使用两个不同的输入句子，都包含单词 mouse，但在不同的上下文中使用。

鼠标的嵌入包含：

强烈的动物成分

强大的技术组件

Q = 输入

编码器句子强烈的明显的解码器下一个引入的一致的输入架构发挥神经网络局限性关键的强大的系列的使用为什么模型的变形金刚 Transformer 变压器 CNN 简单的所有其他单词用于注意力卷积不同的命名