Quantspec关键词检索结果

Quantspec:用层次量化的量子量化kV缓存

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…