详细内容或原文请订阅后点击阅览
commvq:KV缓存压缩的交换矢量量化
大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…
来源:Apple机器学习研究大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,为了解决解码过程中的高计算成本,我们设计了代码簿,以使用Ro-Tary位置嵌入(ROPE)是可交换的,并利用了期望 - 最大化(EM)算法来学习代码手册。这可以有效地集成解码到自我发病机构中,从而大大降低了计算开销。我们的方法通过添加量化实现了优越的准确性,同时使用我们的绳索通用纸币降低计算成本。在长篇下说基准标记和GSM8K上进行的实验表明,我们的方法将FP16 kV高速缓存的大小降低了87.5%,以进行2位量化,同时维持高于先进的KV高速缓存量化方法的准确性更高。值得注意的是,它可以以最小的精度降低启用KV缓存的1位量化,从而可以在单个RTX 4090 GPU上运行具有最大128K上下文长度的Llama-3.1 8B模型。
- †马萨诸塞大学阿默斯特大学‡普林斯顿大学§马萨诸塞州理工学院