Loading...
机构名称:
¥ 2.0

在本章中,我们介绍了变压器,这是用于建立大型语言模型的标准体系结构。基于变压器的大语言模型已完全改变了语音和语言处理的领域。的确,本教科书中的每个子章节都将利用它们。我们将暂时将重点放在左右(有时称为因果或自动回归)语言建模上,其中我们将通过在先前的上下文上进行条件,从而为我们提供一系列输入令牌,并一一逐一预测输出令牌。变压器是具有特定结构的神经网络,其中包括一种称为自我注意力或多头注意的机制。1可以将注意力视为通过参与和集成周围代币的信息来构建令牌含义上下文表示的一种方式,从而帮助模型学习如何在大型跨越大跨度上相互关系。

变压器

变压器PDF文件第1页

变压器PDF文件第2页

变压器PDF文件第3页

变压器PDF文件第4页

变压器PDF文件第5页

相关文件推荐