在 Amazon SageMaker AI 和 Amazon Bedrock 上使用 vLLM 高效地服务数十个微调模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 Amazon SageMaker AI 和 Amazon Bedrock 上使用 vLLM 高效地服务数十个微调模型

2026年2月25日 20:56 33 Comments

在这篇文章中，我们将解释如何在 vLLM 中为专家混合 (MoE) 模型实现多 LoRA 推理，描述我们执行的内核级优化，并向您展示如何从这项工作中受益。我们在这篇文章中使用 GPT-OSS 20B 作为我们的主要示例。

来源:亚马逊云科技 _机器学习

运行多个自定义 AI 模型（尤其是最新的专家混合 (MoE) 模型系列）的组织和个人可能会面临为单个模型接收不到足够流量来饱和专用计算端点而支付闲置 GPU 容量费用的挑战。为了解决这个问题，我们与 vLLM 社区合作，开发了一种有效的解决方案，用于为 GPT-OSS 或 Qwen 等流行的开源 MoE 模型提供多低秩适应 (Multi-LoRA) 服务。 Multi-LoRA 是一种流行的模型微调方法。多 LoRA 不是重新训练整个模型权重，而是保持原始权重冻结，并将小型可训练适配器注入模型层。使用多 LoRA，在推理时，多个自定义模型共享相同的 GPU，仅根据请求换入和换出适配器。例如，可以通过具有多 LoRA 的单个 GPU 为五个客户（每个客户仅使用 10% 的专用 GPU）提供服务，从而将五个未充分利用的 GPU 转变为一个高效共享的 GPU。

在 vLLM 中为 MoE 模型实现多 LoRA 推理

在我们深入研究 vLLM 中 MoE 模型的多 LoRA 推理的初步实现之前，我们希望提供一些有关 MoE 模型和 LoRA 微调的背景信息，这对于理解我们优化背后的基本原理非常重要。 MoE 模型包含多个称为专家的专门神经网络。路由器将每个输入令牌定向到最相关的专家，然后汇总专家的输出。这种稀疏架构可以用更少的计算资源处理更大的模型，因为每个令牌只激活模型总参数的一小部分，请参见下面的图 1 进行可视化。

执行优化

愚公

专用工作中 MoE vLLM 适配器相同的下面的可视化背后的相关的提供模型路由器有效的输入执行的流行的开发称为流量自定义专家神经网络最新的 GPU 参数的背景信息推理充分利用模型的 LoRA 定向优化模型权重根据 GPT 基本原理计算资源挑战