滑动窗关键词检索结果

RACTENTION:朝向局部全球注意模型的最小滑动窗口尺寸

RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models

局部全球注意模型最近已成为标准变压器的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型(例如Gemma2和Mistral)采用了保守的窗户尺寸(例如,在8192预算后的长度中4096)来保持性能。这项工作调查了……