Quantspec：用层次量化的量子量化kV缓存 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Quantspec：用层次量化的量子量化kV缓存

2025年7月11日 00:00 33 Comments

来源:Apple机器学习研究

大型语言模型（LLMS）越来越多地被部署在边缘设备上，以进行长篇文章设置，从而越来越需要快速有效的长篇小说推断。在这些情况下，就GPU内存和延迟而言，键值（KV）缓存是主要的瓶颈，因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码，但由于KV缓存优化策略效率低下，现有方法通常难以实现大幅加速，并导致较低的接受率。为了应对这些挑战，我们提出了一个新颖的自我指导解码框架Quantspec，该框架草案在其中分享了目标模型的体系结构，但采用了层次的4位量化KV缓存和4位量化加速度的重量。 Quantspec保持高验收率（> 90％），可靠地提供一致的端到端速度高达约2.5倍，表现优于其他使用稀疏KV CACHE进行长篇文本LLM推断的自我指导的解码方法。与这些替代方案相比，QuantsPec还将记忆要求减少了约1.3倍。

*同等贡献†加利福尼亚大学，伯克利分校‡国际计算机科学研究所§劳伦斯·伯克利国家实验室

*平等贡献

†加利福尼亚大学伯克利分校

‡国际计算机科学学院

§劳伦斯·伯克利国家实验室

科学学模型的缓存解码长篇完整的效率指导的伯克利框架速度的研究所边缘设备端到端低下目标模型一致的推断 KV 科学研究 Quantspec 自回归计算机有效的量化进行体系结构主要的劳伦斯伯克利分校实验室计算机科学较低的加速度替代方案接受的加利福尼亚大学提供

Quantspec：用层次量化的量子量化kV缓存

其他外部链接

Tags

XiaoMi-AI