详细内容或原文请订阅后点击阅览
Sigmoid 自注意力的理论、分析和最佳实践
*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……
来源:Apple机器学习研究*主要贡献者
注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常以键和查询之间的点积的 softmax 形式获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 sigmoid 激活。在这项研究中,我们重新审视了 sigmoid 注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 sigmoid 注意力机制的 Transformer 是通用函数逼近器,并且与 softmax 注意力机制相比,其规律性有所提高。通过详细的实证分析,我们发现在训练的早期阶段稳定较大的初始注意力规范是成功训练具有 sigmoid 注意力机制的模型的关键因素,其表现优于之前的尝试。我们还引入了 FLASHSIGMOID,这是一种硬件感知且内存高效的 S 型注意力实现,在 H100 GPU 上,与 FLASHATTENTION2 相比,推理内核速度提高了 17%。语言、视觉和语音方面的实验表明,正确规范化的 S 型注意力在广泛的领域和规模上与 softmax 注意力的强大性能相匹配,这是之前对 S 型注意力的尝试无法完全实现的。我们的工作统一了现有技术,并为 S 型注意力建立了最佳实践,作为 transformer 中的嵌入式 softmax 替代品。