Quantspec领域信息情报检索---XiaoMi-AI

2025年7月11日 00:00

Quantspec：用层次量化的量子量化kV缓存

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

大型语言模型（LLMS）越来越多地被部署在边缘设备上，以进行长篇文章设置，从而越来越需要快速有效的长篇小说推断。在这些情况下，就GPU内存和延迟而言，键值（KV）缓存是主要的瓶颈，因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码，但由于KV缓存优化策略效率低下，现有方法通常难以实现大幅加速，并导致较低的接受率。到…

Quantspec关键词检索结果

Quantspec：用层次量化的量子量化kV缓存