随机 KV 路由：启用自适应深度缓存共享 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

随机 KV 路由：启用自适应深度缓存共享

2026年5月5日 00:00 33 Comments

来源:Apple机器学习研究

为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV)，以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大，并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存，但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每层的完整缓存是多余的，但实现跨层缓存共享仍然是一个实际挑战；现有方法通常会遇到吞吐量降低或首次令牌时间增加的问题。在本文中，我们证明删除层的缓存可以提供有效的优化而不会丢失信息。我们提出了一种简单的训练方法：随机跨层注意力。在训练期间，各层随机选择关注自己的 KV 状态或前一层的 KV 状态。这种随机过程使模型能够适应各种深度缓存共享策略，确保部署时未知硬件约束的灵活性。我们的评估表明，在预训练或微调期间应用此方案可以为各种模型系列实现深度缓存共享。此外，对于数据受限设置中的较大模型，这种方法暗示了类似正则化的效果，经常保持或提高性能，同时显着减少缓存的内存占用。

时间轴吞吐量跨层服务提供缓存提高共享模型有效的训练期减少仍然是随机提高性能多余的深度 KV 增加的自己的注意力内存占用删除随机过程灵活性方法训练方法最近的高性能优化自回归简单的过程

随机 KV 路由：启用自适应深度缓存共享

其他外部链接

Tags

XiaoMi-AI