详细内容或原文请订阅后点击阅览
随机 KV 路由:启用自适应深度缓存共享
为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV),以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大,并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存,但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每个层的完整缓存是多余的,但实现......
来源:Apple机器学习研究为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV),以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大,并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存,但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每层的完整缓存是多余的,但实现跨层缓存共享仍然是一个实际挑战;现有方法通常会遇到吞吐量降低或首次令牌时间增加的问题。在本文中,我们证明删除层的缓存可以提供有效的优化而不会丢失信息。我们提出了一种简单的训练方法:随机跨层注意力。在训练期间,各层随机选择关注自己的 KV 状态或前一层的 KV 状态。这种随机过程使模型能够适应各种深度缓存共享策略,确保部署时未知硬件约束的灵活性。我们的评估表明,在预训练或微调期间应用此方案可以为各种模型系列实现深度缓存共享。此外,对于数据受限设置中的较大模型,这种方法暗示了类似正则化的效果,经常保持或提高性能,同时显着减少缓存的内存占用。
