详细内容或原文请订阅后点击阅览
使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型
利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »
来源:走向数据科学在任何机器学习项目中,目标是训练一个可以被他人使用的模型来得出良好的预测。为此,需要推断该模型。此工作流程中的几个部分需要此推论端点,即用于模型评估,然后将其释放到开发,分期,最后是生产环境,以便最终用户消费。
在本文中,我将使用AWS的SageMaker Endpoint及其DJL图像来演示如何部署最新的LLM和服务技术,即Llama和Vllm。这些组件是什么,它们如何构成推理终点?
sagemaker是一项AWS服务,由大量工具和服务组成,以管理机器学习生命周期。它的推理服务被称为萨吉人端点。在引擎盖下,它本质上是由AWS自我管理的虚拟机。
sagemakerdjl(Deep Java库)是一个由AWS开发的开源库,用于开发LLM推理Docker图像,包括VLLM [2]。此图像在…
djl