commvq：KV缓存压缩的交换矢量量化 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

commvq：KV缓存压缩的交换矢量量化

2025年7月10日 06:25 33 Comments

来源:Apple机器学习研究

大语言模型（LLMS）越来越多地用于需要长上下文长度的应用中，但是随着连接长度的增长，键值（KV）缓存通常会成为GPU上的内存瓶颈。为了解决这个问题，我们提出了交换矢量量化（COMMVQ），以显着减少长篇小说LLM推理的内存使用情况。首先，我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化，然后可以用简单的矩阵乘法来解码。其次，为了解决解码过程中的高计算成本，我们设计了代码簿，以使用Ro-Tary位置嵌入（ROPE）是可交换的，并利用了期望 - 最大化（EM）算法来学习代码手册。这可以有效地集成解码到自我发病机构中，从而大大降低了计算开销。我们的方法通过添加量化实现了优越的准确性，同时使用我们的绳索通用纸币降低计算成本。在长篇下说基准标记和GSM8K上进行的实验表明，我们的方法将FP16 kV高速缓存的大小降低了87.5％，以进行2位量化，同时维持高于先进的KV高速缓存量化方法的准确性更高。值得注意的是，它可以以最小的精度降低启用KV缓存的1位量化，从而可以在单个RTX 4090 GPU上运行具有最大128K上下文长度的Llama-3.1 8B模型。

†马萨诸塞大学阿默斯特大学‡普林斯顿大学§马萨诸塞州理工学院

†马萨诸塞大学阿默斯特大学

‡普林斯顿大学

§马萨诸塞州技术学院

代码大学缓存量化编码器解决计算成本解码简单的矩阵乘法长度计算开销先进的降低准确性交换的阿默斯可交换的高速缓存最大化最小的矢量量化基准标记方法 KV 使用情况 GPU

commvq：KV缓存压缩的交换矢量量化

其他外部链接

Tags

XiaoMi-AI