矢量量化领域信息情报检索---XiaoMi-AI

2025年7月10日 06:25

commvq：KV缓存压缩的交换矢量量化

CommVQ: Commutative Vector Quantization for KV Cache Compression

大语言模型（LLMS）越来越多地用于需要长上下文长度的应用中，但是随着连接长度的增长，键值（KV）缓存通常会成为GPU上的内存瓶颈。为了解决这个问题，我们提出了交换矢量量化（COMMVQ），以显着减少长篇小说LLM推理的内存使用情况。首先，我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化，然后可以用简单的矩阵乘法来解码。其次，要解决解码过程中的高计算成本，我们设计了…

矢量量化关键词检索结果

commvq：KV缓存压缩的交换矢量量化