独家自注意力 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

独家自注意力

2026年3月25日 00:00 33 Comments

我们引入了专有自注意力（XSA），这是自注意力（SA）的简单修改，可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息（从而排除自身位置的信息），从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时，XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA，并且随着序列长度的增长显示出越来越大的增益。

来源:Apple机器学习研究

我们引入了专有自注意力（XSA），这是自注意力（SA）的简单修改，可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息（从而排除自身位置的信息），从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时，XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA，并且随着序列长度的增长显示出越来越大的增益。

建模正交的位置的思想提高任务 2.7 序列价值参数的 Transformer 代币信息 XSA 关键语言注意力 SA

独家自注意力

其他外部链接

Tags

XiaoMi-AI