Quantspec:用层次量化的量子量化kV缓存

大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…

来源:Apple机器学习研究

大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。为了应对这些挑战,我们提出了一个新颖的自我指导解码框架Quantspec,该框架草案在其中分享了目标模型的体系结构,但采用了层次的4位量化KV缓存和4位量化加速度的重量。 Quantspec保持高验收率(> 90%),可靠地提供一致的端到端速度高达约2.5倍,表现优于其他使用稀疏KV CACHE进行长篇文本LLM推断的自我指导的解码方法。与这些替代方案相比,QuantsPec还将记忆要求减少了约1.3倍。

    *同等贡献†加利福尼亚大学,伯克利分校‡国际计算机科学研究所§劳伦斯·伯克利国家实验室
  • *平等贡献
  • †加利福尼亚大学伯克利分校
  • ‡国际计算机科学学院
  • §劳伦斯·伯克利国家实验室