注意力有多顺畅?

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...

来源:Apple机器学习研究

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解——这是分析鲁棒性和表达能力的关键——是不完整的。我们在几个实际场景中详细研究了自注意力的 Lipschitz 常数,讨论了序列长度和层规范化对非掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。具体来说,我们表明,对于任何紧凑集合中长度为 n 的输入,自注意力的 Lipschitz 常数由 sqrt(n) 限制为一个常数因子,并且对于合理的序列长度,这个界限是紧的。当序列长度 n 太大而前一个界限不紧时,我们称之为均值场机制,我们提供了一个与 n 无关的上限和匹配的下限。我们用于掩蔽自注意力的均值场框架是新颖的,具有独立的兴趣。我们对预训练和随机初始化的 BERT 和 GPT-2 进行的实验支持了我们的理论发现。

图 1:不同架构中注意力层作为序列长度函数的规律性。
图 1:不同架构中注意力层作为序列长度函数的规律性。