介绍由 llm-d 提供支持的 AWS 上的分解推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

介绍由 llm-d 提供支持的 AWS 上的分解推理

2026年3月16日 16:55 33 Comments

在这篇博文中，我们介绍了下一代推理能力背后的概念，包括分解服务、智能请求调度和专家并行。我们讨论它们的优势，并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们，以显着提高推理性能、资源利用率和运营效率。

来源:亚马逊云科技 _机器学习

我们感谢 llm-d 团队的 Greg Pereira 和 Robert Shaw 支持将 llm-d 引入 AWS。

在代理和推理时代，与单次回复相比，大型语言模型 (LLM) 可生成多 10 倍的令牌并通过复杂的推理链进行计算。代理人工智能工作流程还会产生高度可变的需求和处理量的指数级增长，从而使推理过程陷入困境并降低用户体验。随着世界从人工智能解决方案原型设计过渡到大规模部署人工智能，高效推理正在成为控制因素。

LLM 推理由两个不同的阶段组成：预填充和解码。预填充阶段受计算限制。它并行处理整个输入提示，以生成初始的键值 (KV) 缓存条目集。解码阶段受内存限制。它一次自回归生成一个令牌，同时需要大量内存带宽来访问模型权重和不断增长的 KV 缓存。更复杂的是，推理请求根据输入和输出长度的计算要求差异很大，使得高效的资源利用变得尤其具有挑战性。

传统方法通常涉及在预定的基础设施和拓扑上部署模型，或使用基本的分布式策略，但这些策略不考虑 LLM 推理的这些独特阶段。这会导致资源利用率不理想，GPU 在不同的推理阶段要么利用率不足，要么过载。虽然 vLLM 已成为一种流行的开源推理引擎，可通过近乎连续的批处理和 PagedAttention 来提高效率，但大规模部署的组织在跨多个节点协调部署和优化路由决策方面仍然面临挑战。

什么是 llm-d？

为了使这些功能易于使用，llm-d 提供了一组明亮的路径 - 参考服务架构，其中针对不同的性能、可扩展性和工作负载目标打包了经过验证的优化策略：

并行处理 LLM 输入资源提高流行的增长的预定的缓存大规模 llm 部署代理人计算工作负载推理解码分布式明亮的不同的验证的可扩展性基本的参考传统方法初始的阶段 KV 人工智能连续的根据原型设计可变的复杂的使用模型权重优化高效率基础设施利用率自回归

介绍由 llm-d 提供支持的 AWS 上的分解推理

什么是 llm-d？

其他外部链接

Tags

XiaoMi-AI