Perceiver AR:通用、长上下文自回归生成

我们开发了 Perceiver AR,这是一种自回归、模态无关的架构,它使用交叉注意将长距离输入映射到少量潜在输入,同时保持端到端因果掩蔽。Perceiver AR 可以直接处理十万多个标记,无需手工制作的稀疏模式或记忆机制即可实现实用的长上下文密度估计。

来源:DeepMind - 新闻与博客

在过去的几年中,自回归 Transformer 在生成模型方面取得了一系列突破。这些模型通过预测一个又一个元素来生成样本的每个元素——图像的像素、文本的字符(通常以“token”块的形式)、音频波形的样本等等。在预测下一个元素时,模型可以回顾之前创建的元素。

但是,随着更多元素用作输入,Transformer 的每一层都会变得更加昂贵,并且从业者只能负担得起在长度不超过约 2,048 个元素的序列上训练深度 Transformer。因此,大多数基于 Transformer 的模型在进行预测时会忽略最近过去(大约 1,500 个单词或 1/6 个小图像)之外的所有元素。

相比之下,我们最近开发的 Perceiver 模型在各种现实世界任务中都取得了出色的结果,最多包含约 100,000 个元素。感知器使用交叉注意力将输入编码到潜在空间中,将输入的计算要求与模型深度分离。无论输入大小如何,感知器几乎在每一层都会花费固定成本。

感知器模型

虽然潜在空间编码在一次传递中处理所有元素,但自回归生成假设处理一次只发生一个元素。为了解决这个问题,Perceiver AR 提出了一个简单的解决方案:将潜在元素逐一与输入的最终元素对齐,并小心地屏蔽输入,以便潜在元素只能看到较早的元素。

结果是一个架构(如上所示),它可以处理比标准 Transformers 长 50 倍的输入,同时部署范围与标准解码器专用 Transformers 一样广泛(并且基本上一样容易)。

在标准、长上下文图像 (ImageNet 64x64)、语言 (PG-19) 和音乐 (MAESTRO) 生成基准上,Perceiver AR 产生了最先进的结果。通过将输入大小与计算预算分离来增加输入上下文会产生几个有趣的结果: