KV预测提高了第一个令牌
基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们…
来源:Apple机器学习研究基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们引入了一种称为KV预测的新方法。在我们的方法中,使用小型辅助模型来处理提示并产生基本模型使用的KV缓存的近似值。然后将此近似的KV缓存与自回归生成的基本模型一起使用,而无需再次查询辅助模型。我们证明,与基准相比,我们的方法产生了帕累托最佳的效率 - 精度折衷。在Triviaqa上,我们在一系列TTFT Flops预算中证明了相对准确性提高15%-50%。我们还证明,在固定的TTFT Flops预算下,人类python代码完成的准确性提高了30%。此外,我们在Apple M2 Pro CPU上进行了基准模型,并证明了我们的拖鞋的改进可以转化为硬件上的TTFT加速。我们在这里发布代码。
在这里