Amazon Search 如何使用 AWS Batch 将 ML 训练提高两倍以进行 Amazon SageMaker 训练作业

在本文中,我们向您展示 Amazon Search 如何利用 AWS Batch 进行 SageMaker 训练作业来优化 GPU 实例利用率。该托管解决方案使我们能够在 P5、P4 等 GPU 加速实例系列上协调机器学习 (ML) 训练工作负载。我们还将提供用例实现的分步演练。

来源:亚马逊云科技 _机器学习
在本文中,我们向您展示 Amazon Search 如何利用 AWS Batch 进行 SageMaker 训练作业来优化 GPU 实例利用率。该托管解决方案使我们能够在 P5、P4 等 GPU 加速实例系列上协调机器学习 (ML) 训练工作负载。我们还将提供用例实施的分步演练。 Amazon Search 的机器学习在 Amazon Search,我们使用数百个 GPU 加速实例来训练和评估 ML 模型,帮助我们的客户发现他们喜爱的产品。科学家通常一次训练多个模型,以找到优化模型性能的一组最佳特征、模型架构和超参数设置。我们之前利用先进先出 (FIFO) 队列来协调模型训练和评估作业。然而,我们需要采用更细致的标准来确定哪些作业应该按什么顺序运行的优先级。生产模型需要以高优先级运行,探索性研究作为中优先级运行,超参数扫描和批量推理作为低优先级运行。我们还需要一个可以处理中断的系统。如果作业失败,或者给定的实例类型变得饱和,我们需要该作业在其他可用的兼容实例类型上运行,同时遵守总体优先级标准。最后,我们需要一个托管解决方案,以便我们可以更多地关注模型开发而不是管理基础设施。在评估了多个选项后,我们选择 AWS Batch 来执行 Amazon SageMaker 训练作业,因为它最能满足我们的要求。该解决方案将 AWS Batch 与 Amazon SageMaker 无缝集成,使我们能够根据优先级标准运行作业。这使得应用科学家能够提交多个并发作业,而无需手动资源管理。通过利用 AWS Batch 功能(例如通过公平份额调度进行高级优先级划分),我们将 GPU 加速实例的峰值利用率从 40% 提高到 80% 以上。Amazon 搜索: