详细内容或原文请订阅后点击阅览
Epicache:长时间对话问题的情节KV缓存管理
大型语言模型(LLM)的最新进展具有扩展的上下文长度,使助手能够维持长长的历史,以获得连贯的个性化回应。但是,这种能力取决于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源约束下迅速占主导地位。 KV缓存压缩是减少此开销的积极研究线,该研究旨在限制缓存大小的同时保持准确性。然而,现有方法面临两个主要局限性:(i)在全文预填充后驱逐条目会导致无限的峰值内存,以及(ii)…
来源:Apple机器学习研究大型语言模型(LLM)的最新进展具有扩展的上下文长度,使助手能够维持长长的历史,以获得连贯的个性化回应。但是,这种能力取决于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源约束下迅速占主导地位。 KV缓存压缩是减少此开销的积极研究线,该研究旨在限制缓存大小的同时保持准确性。然而,现有方法面临两个主要局限性:(i)在全文预击之前驱逐条目会导致无界的峰值内存,并且(ii)与查询有关的驱逐将缓存缩小到单个查询,从而导致多转向对话的准确性下降。我们介绍了Epicache,这是一个在固定的内存预算下进行长时间会话问题回答(LongConvQA)的无培训KV缓存管理框架。 Epicache界限通过较大的预填充填充范围,并通过情节性KV压缩保存与主题相关的上下文,该上下文将对话历史记录到连贯的情节中,并应用了特定于情节的KV缓存驱逐。我们进一步设计了一种自适应层的预算分配策略,该策略可以衡量每层驱逐的敏感性,并相应地跨层分配记忆预算。在三个LongConvQA基准测试中,Epicache在4-6倍压缩下的准确性高达40%,维持近乎满足的KV准确性,并将潜伏期和内存降低2.4倍和3.5倍,从而在严格的资源约束下实现有效的多型电流互动。
- †Hanyang University **在Apple