独家自注意力

我们引入了专有自注意力(XSA),这是自注意力(SA)的简单修改,可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息(从而排除自身位置的信息),从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时,XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA,并且随着序列长度的增长显示出越来越大的增益。

来源:Apple机器学习研究

我们引入了专有自注意力(XSA),这是自注意力(SA)的简单修改,可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息(从而排除自身位置的信息),从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时,XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA,并且随着序列长度的增长显示出越来越大的增益。