详细内容或原文请订阅后点击阅览
使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理
加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛用于整个行业的生产应用程序。今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,达到了最先进的水平……
来源:Apple机器学习研究加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛应用于整个行业的生产应用。
今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,可实现最先进的性能。ReDrafter 使用 RNN 草稿模型,并将波束搜索与动态树注意相结合,将开源模型的 LLM token 生成速度提高到每生成一步最多 3.5 个 token,超越了之前的推测解码技术的性能。
发布 开源每秒令牌数加速
生产化 ReDrafter 以加速 NVIDIA TensorRT-LLM
这项研究工作取得了显著成果,但其更大的影响来自于应用于生产以加速 LLM 推理。为了使这一进步适用于 NVIDIA GPU,我们与 NVIDIA 合作将 ReDrafter 集成到 NVIDIA TensorRT-LLM 推理加速框架中。
NVIDIA TensorRT-LLM在 NVIDIA GPU 上对数百亿参数生产模型进行基准测试时,使用带有 ReDrafter 的 NVIDIA TensorRT-LLM 推理加速框架,我们发现贪婪解码的每秒生成令牌速度提高了 2.7 倍(见图 1)。这些基准测试结果表明,该技术可以显著减少用户可能遇到的延迟,同时使用更少的 GPU 并消耗更少的电量。
(见图 1)有关更多详细信息,请参阅 NVIDIA 开发者博客上的这篇文章。