介绍由 llm-d 提供支持的 AWS 上的分解推理

在这篇博文中,我们介绍了下一代推理能力背后的概念,包括分解服务、智能请求调度和专家并行。我们讨论它们的优势,并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们,以显着提高推理性能、资源利用率和运营效率。

来源:亚马逊云科技 _机器学习

我们感谢 llm-d 团队的 Greg Pereira 和 Robert Shaw 支持将 llm-d 引入 AWS。

在代理和推理时代,与单次回复相比,大型语言模型 (LLM) 可生成多 10 倍的令牌并通过复杂的推理链进行计算。代理人工智能工作流程还会产生高度可变的需求和处理量的指数级增长,从而使推理过程陷入困境并降低用户体验。 随着世界从人工智能解决方案原型设计过渡到大规模部署人工智能,高效推理正在成为控制因素。

LLM 推理由两个不同的阶段组成:预填充和解码。预填充阶段受计算限制。它并行处理整个输入提示,以生成初始的键值 (KV) 缓存条目集。解码阶段受内存限制。它一次自回归生成一个令牌,同时需要大量内存带宽来访问模型权重和不断增长的 KV 缓存。更复杂的是,推理请求根据输入和输出长度的计算要求差异很大,使得高效的资源利用变得尤其具有挑战性。

传统方法通常涉及在预定的基础设施和拓扑上部署模型,或使用基本的分布式策略,但这些策略不考虑 LLM 推理的这些独特阶段。这会导致资源利用率不理想,GPU 在不同的推理阶段要么利用率不足,要么过载。虽然 vLLM 已成为一种流行的开源推理引擎,可通过近乎连续的批处理和 PagedAttention 来提高效率,但大规模部署的组织在跨多个节点协调部署和优化路由决策方面仍然面临挑战。

什么是 llm-d?

为了使这些功能易于使用,llm-d 提供了一组明亮的路径 - 参考服务架构,其中针对不同的性能、可扩展性和工作负载目标打包了经过验证的优化策略: