矢量量化关键词检索结果

commvq:KV缓存压缩的交换矢量量化

CommVQ: Commutative Vector Quantization for KV Cache Compression

大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…