使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理

2024年12月18日 00:00 33 Comments

加速 LLM 推理是一个重要的 ML 研究问题，因为自回归 token 生成计算成本高且相对较慢，而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外，我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展，该 GPU 广泛用于整个行业的生产应用程序。今年早些时候，我们发布并开源了 Recurrent Drafter (ReDrafter)，这是一种新颖的推测解码方法，达到了最先进的水平……

来源:Apple机器学习研究

加速 LLM 推理是一个重要的 ML 研究问题，因为自回归 token 生成计算成本高且相对较慢，提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外，我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展，该 GPU 广泛应用于整个行业的生产应用。

今年早些时候，我们发布并开源了 Recurrent Drafter (ReDrafter)，这是一种新颖的推测解码方法，可实现最先进的性能。ReDrafter 使用 RNN 草稿模型，并将波束搜索与动态树注意相结合，将开源模型的 LLM token 生成速度提高到每生成一步最多 3.5 个 token，超越了之前的推测解码技术的性能。

发布开源

每秒令牌数加速图 1：使用 NVIDIA TensorRT-LLM 和 ReDrafter 与自动回归的每秒令牌数加速。

每秒令牌数加速

图 1：使用 NVIDIA TensorRT-LLM 和 ReDrafter 与自动回归的每秒令牌数加速。

生产化 ReDrafter 以加速 NVIDIA TensorRT-LLM

这项研究工作取得了显著成果，但其更大的影响来自于应用于生产以加速 LLM 推理。为了使这一进步适用于 NVIDIA GPU，我们与 NVIDIA 合作将 ReDrafter 集成到 NVIDIA TensorRT-LLM 推理加速框架中。

NVIDIA TensorRT-LLM

在 NVIDIA GPU 上对数百亿参数生产模型进行基准测试时，使用带有 ReDrafter 的 NVIDIA TensorRT-LLM 推理加速框架，我们发现贪婪解码的每秒生成令牌速度提高了 2.7 倍（见图 1）。这些基准测试结果表明，该技术可以显著减少用户可能遇到的延迟，同时使用更少的 GPU 并消耗更少的电量。

（见图 1）

有关更多详细信息，请参阅 NVIDIA 开发者博客上的这篇文章。

NVIDIA 详细信息解码推理测试每秒加速 LLM 生成生产提高用户令牌减少 TensorRT 研究工作基准计算成本 ReDrafter 动态自回归 token GPU