详细内容或原文请订阅后点击阅览
用于大型语言模型中快速推测解码的循环起草器
我们提出了 Recurrent Drafter (ReDrafter),这是一种先进的推测解码方法,可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动:(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件,(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀,以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 使用 PyTorch 将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍……
来源:Apple机器学习研究我们介绍了 Recurrent Drafter (ReDrafter),这是一种先进的推测解码方法,可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动:(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件,(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀,以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 通过在 Nvidia H100 GPU 上的 PyTorch 实现,将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍。为了展示其在生产环境中的实用性,我们将 ReDrafter 集成到 TensorRT-LLM 中,在 H100 GPU 上实现了高达 2.5 倍的速度提升。我们还通过在 MLX 中实现该方法并对 Apple Silicon 芯片中的 Metal GPU 进行基准测试性能来验证其对于设备应用程序的有效性,实现了高达 2.3 倍的加速。