使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理

加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛用于整个行业的生产应用程序。今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,达到了最先进的水平……

来源:Apple机器学习研究

加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛应用于整个行业的生产应用。

今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,可实现最先进的性能。ReDrafter 使用 RNN 草稿模型,并将波束搜索与动态树注意相结合,将开源模型的 LLM token 生成速度提高到每生成一步最多 3.5 个 token,超越了之前的推测解码技术的性能。

发布 开源
每秒令牌数加速图 1:使用 NVIDIA TensorRT-LLM 和 ReDrafter 与自动回归的每秒令牌数加速。

每秒令牌数加速

图 1:使用 NVIDIA TensorRT-LLM 和 ReDrafter 与自动回归的每秒令牌数加速。

生产化 ReDrafter 以加速 NVIDIA TensorRT-LLM

这项研究工作取得了显著成果,但其更大的影响来自于应用于生产以加速 LLM 推理。为了使这一进步适用于 NVIDIA GPU,我们与 NVIDIA 合作将 ReDrafter 集成到 NVIDIA TensorRT-LLM 推理加速框架中。

NVIDIA TensorRT-LLM

在 NVIDIA GPU 上对数百亿参数生产模型进行基准测试时,使用带有 ReDrafter 的 NVIDIA TensorRT-LLM 推理加速框架,我们发现贪婪解码的每秒生成令牌速度提高了 2.7 倍(见图 1)。这些基准测试结果表明,该技术可以显著减少用户可能遇到的延迟,同时使用更少的 GPU 并消耗更少的电量。

(见图 1)

有关更多详细信息,请参阅 NVIDIA 开发者博客上的这篇文章。