详细内容或原文请订阅后点击阅览
Amazon Sagemaker Hyperpod任务治理的最佳实践
在这篇文章中,我们提供了最佳实践,以最大程度地提高SageMaker HyperPod任务治理的价值,并使管理和数据科学体验无缝。在管理和运行生成的AI开发任务时,我们还讨论了共同的治理方案。
来源:亚马逊云科技 _机器学习在AWS RE:Invent 2024上,我们在Amazon Sagemaker Hyperpod上发起了新的创新,在Amazon Elastic Kubernetes服务(Amazon EKS)上,您可以在共享加速的Compelation Compertute上运行生成的AI开发任务,并有效地降低40个成本%。管理员可以使用SageMaker HyperPod任务治理来管理加速计算对团队和项目的分配,并执行确定不同类型任务的优先级的政策。结果的改善计算资源的利用使组织能够专注于加速其生成的AI创新和推销时间,而不是花费时间协调资源分配,并不断地重新补充其生成的AI开发任务。
启动 Amazon Sagemaker Hyperpod Amazon Elastic Kubernetes服务 生成ai在这篇文章中,我们提供了最佳实践,以最大程度地提高SageMaker HyperPod任务治理的价值,并使管理和数据科学体验无缝。在管理和运行生成的AI开发任务时,我们还讨论了共同的治理方案。
先决条件
要开始使用Amazon EKS策划的现有萨格马人的HyperPod Hyperpod群集,请确保您卸载任何现有的Kueue安装,并具有Kubernetes群集运行1.30+。
卸载任何现有的Kueue安装管理经验
管理员是与SageMaker HyperPod任务治理互动的第一个角色。他们负责根据组织的优先级和目标管理集群计算分配。
管理计算
跨团队管理能力的第一步是设置计算分配。设置计算分配时,请记住以下考虑:
- 这个团队通常会运行什么类型的任务?该团队是否会不断运行任务并需要保留能力?相对于其他团队,该团队的优先级是什么?