HyperPod 现在支持多实例 GPU,以最大限度地提高生成式 AI 任务的 GPU 利用率

在这篇文章中,我们将探讨 Amazon SageMaker HyperPod 现在如何支持 NVIDIA 多实例 GPU (MIG) 技术,使您能够将强大的 GPU 划分为多个独立的实例,以运行并发工作负载,例如推理、研究和交互式开发。通过最大限度地提高 GPU 利用率并减少资源浪费,MIG 可以帮助组织优化成本,同时在不同的机器学习任务中保持性能隔离和可预测的服务质量。

来源:亚马逊云科技 _机器学习
我们很高兴地宣布,使用 NVIDIA 多实例 GPU (MIG) 的 Amazon SageMaker HyperPod 全面推出 GPU 分区功能。借助此功能,您可以在单个 GPU 上同时运行多个任务,从而最大限度地减少因将整个硬件(例如整个 GPU)专用于资源利用不足的任务而导致的计算和内存资源浪费。通过允许更多用户和任务同时访问 GPU 资源,您可以缩短开发和部署周期时间,同时支持在单个物理 GPU 上并行运行的多种工作负载组合,而无需等待 GPU 完全可用。数据科学家在预留的加速计算资源上运行多个轻量级任务,并且需要推动推理(例如,服务语言模型)、研究(例如,模型原型设计)和交互式任务(例如,用于图像分类实验的 Jupyter 笔记本)的高效利用。这些任务通常不需要整个 GPU 来高效运行,更不用说 8 个 GPU 了。集群管理员希望使集群角色(数据科学家、机器学习工程师、基础设施团队)能够在相同的 GPU 上同时运行更多工作负载,同时保留性能保证和工作负载隔离边界、最大化集群范围内的利用率,并保持对 GPU 计算和内存利用率的全面可见性。在这篇文章中,我们将深入探讨如何在 SageMaker HyperPod 上设置和使用 MIG,演示推理和交互式工作负载的实际示例,并分享最大化这一新功能价值的最佳实践。 Amazon SageMaker HyperPod2020 年,NVIDIA 发布了 NVIDIA 多实例 GPU (MIG),以及为 NVIDIA A100(例如:Amazon EC2 P4 – SageMaker ml.p4d.24xlarge 实例)和 NVIDIA A10G (Amazon EC2 G5) GPU(注意:G5 实例不支持 MIG)提供支持的 Ampere 架构。 通过 MIG,管理员可以将单个 GPU 划分为多个 sma