键值关键词检索结果

随机 KV 路由:启用自适应深度缓存共享

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV),以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大,并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存,但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每个层的完整缓存是多余的,但实现......