学习从键值缓存中逐出 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

学习从键值缓存中逐出

2026年2月23日 00:00 33 Comments

来源:Apple机器学习研究

大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战，这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本，但依赖于启发法，例如新近度或过去的注意力分数，它们只能作为代币未来效用的间接代理，并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题：学习根据令牌对未来解码的预测有用性对令牌进行排名。为此，我们引入了 KV 策略 (KVP)，这是一种轻量级单头 RL 代理框架，仅使用键和值向量在预先计算的生成轨迹上进行训练。每个智能体都会学习由未来效用指导的专门驱逐策略，该策略评估所有缓存预算的排名质量，不需要对底层 LLM 进行修改或进行额外的推理。在长上下文基准 RULER 和多轮对话基准 OASST2-4k 上对两个不同的模型系列进行评估，KVP 显着优于基线。此外，对标准下游任务（例如，LongBench、BOOLQ、ARC）的零样本测试表明，KVP 的泛化能力远远超出了其训练分布和更长的上下文长度。这些结果表明，学习预测未来令牌效用是自适应 KV 缓存管理的强大且可扩展的范例。

管理的训练有用性扩展的 LLM 现有的代理驱逐预先计算缓存学习过去的质量低成本 RL 推理计算开销不同的策略上下文令牌 KV 根据指导的额外的进行 KVP 自适应例如启发法计算的注意力未来效用自回归

学习从键值缓存中逐出

其他外部链接

Tags

XiaoMi-AI