Epicache关键词检索结果

Epicache:长时间对话问题的情节KV缓存管理

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

大型语言模型(LLM)的最新进展具有扩展的上下文长度,使助手能够维持长长的历史,以获得连贯的个性化回应。但是,这种能力取决于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源约束下迅速占主导地位。 KV缓存压缩是减少此开销的积极研究线,该研究旨在限制缓存大小的同时保持准确性。然而,现有方法面临两个主要局限性:(i)在全文预填充后驱逐条目会导致无限的峰值内存,以及(ii)…