使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型

2024年9月12日 00:57 33 Comments

利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »

来源:走向数据科学

在任何机器学习项目中，目标是训练一个可以被他人使用的模型来得出良好的预测。为此，需要推断该模型。此工作流程中的几个部分需要此推论端点，即用于模型评估，然后将其释放到开发，分期，最后是生产环境，以便最终用户消费。

在本文中，我将使用AWS的SageMaker Endpoint及其DJL图像来演示如何部署最新的LLM和服务技术，即Llama和Vllm。这些组件是什么，它们如何构成推理终点？

这些组件中的每个组件如何共同为AWS提供模型。 SageMaker Endpoint是GPU实例，DJL是模板Docker Image，而VLLM是模型服务器（由作者创建）。

sagemaker是一项AWS服务，由大量工具和服务组成，以管理机器学习生命周期。它的推理服务被称为萨吉人端点。在引擎盖下，它本质上是由AWS自我管理的虚拟机。

sagemaker

djl（Deep Java库）是一个由AWS开发的开源库，用于开发LLM推理Docker图像，包括VLLM [2]。此图像在…

djl

服务 AWS DJL SageMaker 每一个机器学习虚拟机服务器模型组件映像使用端点需要推理生命周期 vLLM 开发提供用于