在 Amazon SageMaker AI 中引入容器缓存以加快模型扩展

今天,我们很高兴地宣布用于 Amazon SageMaker AI 推理的容器映像缓存,这是我们更快的扩展优化之旅的下一个重大进展。这使得生成式 AI 模型在横向扩展事件期间的端到端延迟速度提高了 2 倍。

来源:亚马逊云科技 _机器学习

今天,我们很高兴地宣布用于 Amazon SageMaker AI 推理的容器映像缓存,这是我们更快的扩展优化之旅的下一个重大进展。这使得生成式 AI 模型在横向扩展事件期间的端到端延迟速度提高了 2 倍。

多年来,Amazon SageMaker AI 不断减少这些扩展阶段的延迟:检测扩展需求、配置实例、下载容器映像、获取模型权重和启动容器。 Amazon SageMaker AI 此前推出了亚分钟级 Amazon CloudWatch 指标,以帮助检测横向扩展需求,速度比传统机制快达 6 倍,并推出了推理组件数据缓存解决方案,可在已运行的实例上存储容器映像和模型工件。这种方法减少了扩展重用现有实例的推理组件操作的冷启动延迟。这些功能共同提高了推理组件可以放置在已配置的实例上并使用现有缓存的场景的自动缩放响应能力。

通过容器缓存,Amazon SageMaker AI 将这些扩展改进扩展到必须启动新实例的场景。即使必须启动新实例,容器缓存也可以消除容器映像下载延迟,而我们之前基于实例存储的缓存对此无能为力。在这篇文章中,我们将展示容器缓存如何解决容器映像下载瓶颈,并演示您可以期待的性能改进。

扩展挑战:何时必须启动新实例

下图展示了新实例启动时实例伸缩的步骤。

  • 实例配置:新的 Amazon Elastic Compute Cloud (Amazon EC2) 实例已启动。
  • 容器映像拉取:容器映像从 Amazon Elastic Container Registry (Amazon ECR) 中拉取。
  • 模型工件下载:模型权重从 Amazon Simple Storage Service (Amazon S3) 获取。
  • 容器缓存之前: