KV预测提高了第一个令牌 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

KV预测提高了第一个令牌

2025年2月19日 00:00 33 Comments

来源:Apple机器学习研究

基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中，该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵，当及时长度或批量尺寸上升时，在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出（称为“第一个令牌”或TTFT的时间）所花费的时间，我们引入了一种称为KV预测的新方法。在我们的方法中，使用小型辅助模型来处理提示并产生基本模型使用的KV缓存的近似值。然后将此近似的KV缓存与自回归生成的基本模型一起使用，而无需再次查询辅助模型。我们证明，与基准相比，我们的方法产生了帕累托最佳的效率 - 精度折衷。在Triviaqa上，我们在一系列TTFT Flops预算中证明了相对准确性提高15％-50％。我们还证明，在固定的TTFT Flops预算下，人类python代码完成的准确性提高了30％。此外，我们在Apple M2 Pro CPU上进行了基准模型，并证明了我们的拖鞋的改进可以转化为硬件上的TTFT加速。我们在这里发布代码。

在这里

步骤模型的及时的缓存证明令牌花费的输出最佳的辅助完成的一系列边缘设备使用的 KV 新方法基准模型自回归代码基本模型 Flops 固定的准确性模型 TTFT 处理产生模型生成量尺寸迅速的所需的变压器引入近似值提高

KV预测提高了第一个令牌

其他外部链接

Tags

XiaoMi-AI