使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型

利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »

来源:走向数据科学

在任何机器学习项目中,目标是训练一个可以被他人使用的模型来得出良好的预测。为此,需要推断该模型。此工作流程中的几个部分需要此推论端点,即用于模型评估,然后将其释放到开发,分期,最后是生产环境,以便最终用户消费。

在本文中,我将使用AWS的SageMaker Endpoint及其DJL图像来演示如何部署最新的LLM和服务技术,即Llama和Vllm。这些组件是什么,它们如何构成推理终点?

这些组件中的每个组件如何共同为AWS提供模型。 SageMaker Endpoint是GPU实例,DJL是模板Docker Image,而VLLM是模型服务器(由作者创建)。

sagemaker是一项AWS服务,由大量工具和服务组成,以管理机器学习生命周期。它的推理服务被称为萨吉人端点。在引擎盖下,它本质上是由AWS自我管理的虚拟机。

sagemaker

djl(Deep Java库)是一个由AWS开发的开源库,用于开发LLM推理Docker图像,包括VLLM [2]。此图像在…

djl