正交的领域信息情报检索---XiaoMi-AI

2026年3月25日 00:00

独家自注意力

我们引入了专有自注意力（XSA），这是自注意力（SA）的简单修改，可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息（从而排除自身位置的信息），从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时，XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA，并且随着序列长度的增长显示出越来越大的增益。

正交的关键词检索结果

独家自注意力