为生成式 AI 推理增强自动扩展功能 - 在 SageMaker Inference 中引入容器缓存
今天,在 AWS re:Invent 2024 大会上,我们很高兴地宣布 Amazon SageMaker 中推出了新的容器缓存功能,该功能可显著缩短扩展生成式 AI 模型进行推理所需的时间。这项创新让您能够更快地扩展模型,在扩展新模型副本时,延迟可降低高达 56%,在新实例上添加模型副本时,延迟可降低高达 30%。在本文中,我们将探讨 SageMaker 推理的新容器缓存功能,以应对部署和扩展大型语言模型 (LLM) 的挑战。
来源:亚马逊云科技 _机器学习今天在 AWS re:Invent 2024 上,我们很高兴地宣布 Amazon SageMaker 中推出了新的容器缓存功能,该功能可显著减少扩展生成式 AI 模型进行推理所需的时间。这项创新让您可以更快地扩展模型,在扩展新模型副本时,延迟可减少高达 56%,在新实例上添加模型副本时,延迟可减少高达 30%。这些改进适用于各种 SageMaker 深度学习容器 (DLC),包括大型模型推理 (LMI,由 vLLM 和多个其他框架提供支持)、Hugging Face 文本生成推理 (TGI)、PyTorch (由 TorchServe 提供支持) 和 NVIDIA Triton。快速的容器启动时间对于有效扩展生成式 AI 模型至关重要,可确保最终用户不会随着推理需求的增加而受到负面影响。
随着生成式 AI 模型及其托管容器的规模和复杂性不断增长,有效扩展这些模型以进行推理变得越来越具有挑战性。到目前为止,每次 SageMaker 通过添加新实例来扩展推理终端节点时,它都需要从 Amazon Elastic Container Registry (Amazon ECR) 中提取容器映像(通常大小为几十 GB),这个过程可能需要几分钟。对于需要多个实例来处理高吞吐量推理请求的生成式 AI 模型,这会增加总扩展时间的大量开销,可能会影响流量高峰期间的应用程序性能。
Amazon Elastic Container Registry此功能仅在使用推理组件时受支持。有关推理组件的更多信息,请参阅使用 Amazon SageMaker 的最新功能将模型部署成本平均降低 50%。
使用 Amazon SageMaker 的最新功能平均将模型部署成本降低 50%