学习从键值缓存中逐出

大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略(KVP),这是一个......的框架

来源:Apple机器学习研究

大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略 (KVP),这是一种轻量级单头 RL 代理框架,仅使用键和值向量在预先计算的生成轨迹上进行训练。每个智能体都会学习由未来效用指导的专门驱逐策略,该策略评估所有缓存预算的排名质量,不需要对底层 LLM 进行修改或进行额外的推理。在长上下文基准 RULER 和多轮对话基准 OASST2-4k 上对两个不同的模型系列进行评估,KVP 显着优于基线。此外,对标准下游任务(例如,LongBench、BOOLQ、ARC)的零样本测试表明,KVP 的泛化能力远远超出了其训练分布和更长的上下文长度。这些结果表明,学习预测未来令牌效用是自适应 KV 缓存管理的强大且可扩展的范例。