详细内容或原文请订阅后点击阅览
推测流:无需辅助模型的快速 LLM 推理
推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。
来源:Apple机器学习研究投机解码是一种基于辅助草案模型的预测,可以加快大型目标语言模型的推断。尽管在特定于应用程序的设置中有效,但通常涉及对草稿和目标模型进行微调以达到高接收率。随着下游任务的数量的增长,这些草稿模型为推理系统增加了重大的复杂性。我们提出了投机流,这是一种单模型投机解码方法,该方法通过将微调目标从下一步的标记预测更改为未来的N-gram预测来融合入学中的目标模型。投机性流媒体在不牺牲生成质量的情况下,在各种任务,结构化查询和含义表示等各种任务中,在各种任务(例如摘要,结构化查询和含义表示)中加快了解码的速度。另外,投机流是参数有效的。与Medusa式体系结构相比,它可以实现PAR/更高的加速,同时使用约10000倍的额外参数,因此非常适合用于资源约束的设备。