详细内容或原文请订阅后点击阅览

Transformers 中多头注意力背后的数学

2024年7月16日 06:32 33 Comments

深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理，并从头开始用 Python 构建它DALL-E 生成的图像1：简介1.1：Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习，尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制，使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉？别担心，因为它会在本文的末尾出现。让我们首先简单看一下 Transformer 是什么样子。Transformer 架构（“Attention is all you need”中的架构）— 作者提供的图片Transformer 由两个主要部分组成：编码器和解码器。编码器处理输入序列以创建连续表示，而解码器从该表示生成输出序列。编码器和解码器都有多个层，每个层包含两个基本组件：多头自注意力机制和位置前馈网络。在本文中，我们将重点介绍多头注意力机制，但我们将在以后的文章中探讨整个 Transformer 架构。1.2：多头注意力概述多头注意力使模型能够关注输入序列的不同部分

来源:走向数据科学

Transformers 中多头注意力背后的数学原理

深入研究多头注意力，这是 Transformers 和 LLM 中的秘密元素。让我们探索它的数学原理，并在 Python 中从头开始构建它

DALL-E 生成的图像

1：简介

1.1：Transformers 概述

Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习，尤其是在自然语言处理 (NLP) 领域。Transformers 使用自注意力机制，使它们能够一次处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的远程依赖关系。这听起来不熟悉吗？不用担心，因为它会在本文的末尾。让我们首先简单看一下 Transformer 是什么样子的。

注意力就是你所需要的一切

Transformer 架构（“注意力就是你所需要的一切”中的架构）——作者提供的图片

注意力就是你所需要的一切

Transformer 由两个主要部分组成：编码器和解码器。编码器处理输入序列以创建连续表示，而解码器从该表示生成输出序列。编码器和解码器都有多个层，每个层包含两个基本组件：多头自注意力机制和位置前馈网络。在本文中，我们将重点介绍多头注意力机制，但我们将在以后的文章中探讨整个 Transformer 架构。

编码器 解码器

1.2：多头注意力概述

Transformer

这些功能使多头注意力成为 Transformer 模型在从语言翻译到图像处理等一系列应用中取得成功的关键组成部分。

2：数学基础

多头注意力架构——作者提供的图片

2.1：注意力机制

Q K V

Transformers 机制解码器远程 Transformer 需要的生成注意力编码器图片序列架构数学原理作者多头