Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser、Illia Polosukhin 注意力就是一切 https://doi.org/10.48550/arXiv.1706.03762
L. Luo 1 ∗,M。Motz 1,2 ∗,J.Kang 3 3,C。VSCH 3 1。 C. B. Ed。 b.ng 1†。
最近,在使计算机能够像我们一样理解语言方面也取得了重大突破。自然语言处理 (NLP) 与表征学习和深度学习相结合,取得了突飞猛进的成果,表明这些技术可以在许多 NLP 任务中取得最先进的结果,例如语言建模 [Jozefowicz et al.,2016]、问答 [Seo et al.,2017]、解析 [Vinyals et al.,2014] 等等。2017 年,Transformer 模型 [Vaswani et al.,2017] 的推出带来了里程碑式的突破。该序列到序列模型利用了注意力机制,适合并行化,并引入了位置编码等技术,与之前利用
所有 GPT 模型基本上都遵循“注意力就是你所需要的一切”(Vaswani 等人,2017)中建立的 Transformer 架构,它有一个编码器来处理输入序列,还有一个解码器来生成输出序列。原始 Transformer 中的编码器和解码器都具有多头自注意力机制,该机制允许模型对序列的各个部分进行差异加权以推断含义和上下文。*作为原始 Transformer 的演变,GPT 模型利用带有掩码自注意力头的仅解码器变压器。使用仅解码器框架是因为 GPT 的主要目标是生成连贯且与上下文相关的文本。由解码器处理的自回归解码允许模型维护上下文并一次一个标记地生成序列。
生成式人工智能 (GenAI) 是人工智能的一个子领域,指的是能够基于学习到的统计模式生成文本、图像和音频等数据的模型(Vaswani 等人,2017 年)。OpenAI 的 ChatGPT 于 2022 年 11 月发布,标志着 GenAI 被公众采用的转折点,在短短几个月内就吸引了超过 1 亿用户(Milmo,2023 年)。微软和谷歌等实体开发的 GenAI 应用程序涵盖多种模式——文本、视觉和音频——并集成到熟悉的教育平台中,这凸显了了解这项技术在教育中的影响的必要性。GenAI 技术在教育领域的日益普及为重新思考和彻底改变现有的教学实践提供了机会。GenAI 正日益成为高等教育 (HE) 话语的一部分,提供教授、评估和吸引学生的新方法。采用这项技术意味着未来的学习者将能够使用全新的工具,以及学习期望的显著差异。
现场测试成本高昂且耗时(Jiao & Lissitz,2020 年)。人们做出了各种努力来限制对新项目进行大量现场测试的需要(例如,Glas & van der Linden,2003 年)。一些人转向自然语言处理 (NLP) 来近似项目难度和从项目文本中进行区分(Benedetto 等人,2020 年;Laverghetta 等人,2021 年;Luger,2016 年)。NLP 是人工智能 (AI) 的一个分支,旨在让计算机理解文本和语言。目前,NLP 领域由最先进的深度学习模型架构 Transformer(Vaswani 等人,2017 年)引领。Transformer 的核心是多头注意力机制,它通过识别每个单词与其他单词的上下文关系来有效地创建每个单词的含义。例如,Transformer 能够区分“write a check”和“check the engine”这两个短语中“check”的含义差异。Transformer 还擅长理解相对较长的文本的含义。
摘要 随着量子系统平台的快速发展,噪声量子态的多体量子态重建问题成为一个重要挑战。人们对使用生成神经网络模型来解决量子态重建问题的兴趣日益浓厚。在这里,我们提出了“基于注意力的量子断层扫描”(AQT),这是一种使用基于注意力机制的生成网络进行量子态重建的方法,它可以学习噪声量子态的混合态密度矩阵。AQT 基于 Vaswani 等人(2017 NIPS)在“注意力就是你所需要的一切”中提出的模型,该模型旨在学习自然语言句子中的长程相关性,从而超越以前的自然语言处理(NLP)模型。我们不仅证明 AQT 在相同任务上的表现优于早期基于神经网络的量子态重建,而且证明 AQT 可以准确地重建与 IBMQ 量子计算机中实验实现的噪声量子态相关的密度矩阵。我们推测 AQT 的成功源于它能够对整个量子系统中的量子纠缠进行建模,就像 NLP 的注意力模型能够捕捉句子中单词之间的相关性一样。
1简介变形金刚及其关键组成部分近年来一直是生成模型的成功和改进的组成部分[Vaswani等。,2023]。他们的全球掌握领域,基于输入上下文动态计算的能力以及较大的能力使它们在许多任务中有用的构建块[Khan等人。,2022]。变压器体系结构的主要缺点是它们具有序列长度的计算复杂性的二次扩展,并符合时间和内存要求。想要在2048×2048分辨率下生成稳定的扩散图像时,最大的U-NET块的注意图在半精度中的记忆成本约为69 GB,为(1 batch×8头×(256 2代币)2×2 bytes)。这超出了大多数消费者GPU的功能[Zhuang等。,2023]。专门的内核,例如用于闪烁的注意力,其速度大大提高并降低了存储成本[Dao等。,2022],由于序列长度的不可行的二次缩放而引起的挑战是持久的。在寻求计算效率的过程中,稀疏注意的概念已获得关注。类似于令牌合并(Tome)的方法[Bolya等。,2023]及其在潜在图像扩散模型中的应用[Bolya and Hoffman,2023]已减少了以高相似性凝结令牌所需的计算时间,从而保留了