对亚马逊萨吉人超级工艺任务治理的多门数支持

在这篇文章中,我们讨论了具有多个帐户的企业如何访问共享的Amazon Sagemaker HyperPod群集以运行其异质工作负载。我们使用SageMaker HyperPod任务治理来启用此功能。

来源:亚马逊云科技 _机器学习
GPU是一种宝贵的资源;它们的供应量短,比传统CPU更为昂贵。它们也适用于许多不同的用例。组织构建或采用生成AI使用GPU来运行模拟,运行推理(用于内部或外部用法),构建代理工作负载以及运行数据科学家的实验。工作负载范围从科学家进行的短暂单GPU实验到多节点连续训练。许多组织需要在其组织内的不同团队,业务部门或帐户上共享一个集中的,高性能的GPU计算基础架构。借助此基础架构,它们可以最大限度地利用昂贵的加速计算资源(例如GPU),而不是使用可能未被充分利用的孤立的基础架构。组织还为用户使用多个AWS帐户。较大的企业可能希望将不同的业务部门,团队或环境(生产,分期,开发)分为不同的AWS帐户。这提供了组织的这些不同部位之间更加颗粒状的控制和隔离。它还使跟踪和分配云成本的直接为合适的团队或业务部门以更好的财务监督而变得直接。特定的原因和设置可能会因企业的规模,结构和要求而变化。但总的来说,多学院策略为大规模云部署提供了更大的灵活性,安全性和可管理性。在这篇文章中,我们讨论了具有多个帐户的企业如何访问共享的Amazon Sagemaker HyperPod群集以运行其异质工作负载。我们使用SageMaker HyperPod任务治理来启用此功能。Sultoldolution概述Sagemaker HyperPod任务治理简化了资源分配,并为集群管理员提供了设置策略以最大化集群中计算利用率的能力。可以使用任务治理