在 SageMaker Inference 中引入快速模型加载器:加速大型语言模型 (LLM) 的自动扩展 - 第 1 部分

今天在 AWS re:Invent 2024 上,我们很高兴地宣布 Amazon SageMaker Inference 中的一项新功能,它显著减少了使用 LMI 部署和扩展 LLM 进行推理所需的时间:Fast Model Loader。在这篇文章中,我们深入探讨了 Fast Model Loader 的技术细节,探索了它与现有 SageMaker 工作流程的集成,讨论了如何开始使用这项强大的新功能,并分享了客户成功案例。

来源:亚马逊云科技 _机器学习

生成式 AI 领域正在快速发展,大型语言模型 (LLM) 处于这一转变的最前沿。这些模型的规模和复杂性呈指数级增长,其中一些模型现在包含数千亿个参数,需要数百 GB 的内存。随着 LLM 不断扩展,AI 工程师在有效部署和扩展这些模型以进行推理方面面临越来越大的挑战。推理部署过程中的主要瓶颈之一是将这些大型模型加载到加速器上所需的时间。随着 LLM 的大小达到数百 GB,许多用户越来越难以应对突发流量模式并快速扩展。对于通常需要高吞吐量和低延迟推理请求的 LLM,此加载过程可能会给总部署和扩展时间增加大量开销,可能会影响流量高峰期间的应用程序性能。SageMaker 大型模型推理 (LMI) 是一个深度学习容器,可帮助客户快速开始在 SageMaker Inference 上部署 LLM。

今天在 AWS re:Invent 2024 上,我们很高兴地宣布 Amazon SageMaker Inference 中推出了一项新功能,该功能可显著减少使用 LMI 部署和扩展 LLM 进行推理所需的时间:快速模型加载器。这项创新让您可以更快地扩展模型,在新实例上扩展新模型副本进行推理时,延迟最多可减少 19%。它代表了在高效加载大型模型方面的重大飞跃。快速模型加载器引入了一种新方法,通过将模型权重直接从 Amazon Simple Storage Service (Amazon S3) 流式传输到加速器,实现更快的模型加载。

Amazon SageMaker 推理 快速模型加载器 Amazon 简单存储服务 llama-3.1-70B 第 2 部分

部署 LLM 进行推理的挑战

  • 配置新的计算实例
  • 下载容器映像
  • 加载容器映像
  • 一致性 区域 .