RACTENTION:朝向局部全球注意模型的最小滑动窗口尺寸

局部全球注意模型最近已成为标准变压器的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型(例如Gemma2和Mistral)采用了保守的窗户尺寸(例如,在8192预算后的长度中4096)来保持性能。这项工作调查了……

来源:Apple机器学习研究

局部全球注意模型最近已成为标准变压器的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型(例如Gemma2和Mistral)采用了保守的窗户尺寸(例如,在8192预算后的长度中4096)来保持性能。这项工作调查了转移这种帕累托前沿的策略,从而使本地全球模型甚至在短篇小说制度中获得效率提高。我们的核心动机是解决当地关注的内在局限性 - 它完全无视定义窗口之外的令牌。我们探索了Ratchention,这是一种与专门的线性注意机制集成在一起的局部注意力的变体,旨在捕获这些窗外令牌的信息。在3B和12B量表上进行预训练的实验表明,Rateention在性能和效率之间取得了较高的帕累托权衡。作为一个最佳位置,窗户大小仅为512的Ratchention始终与各种设置的全注意模型的性能相匹配。此外,在统治者基准中验证了RAINTENTION的线性注意成分中固有的经常性性质有助于增强的长期性能。至关重要的是,这些改进不会损害培训效率。多亏了专门的内核实现和窗口尺寸降低,Rateention保持训练速度可与现有的最新方法相媲美。

    †在Apple