在Amazon Sagemaker Hyperpod

With a one-click installation of the Amazon Elastic Kubernetes Service (Amazon EKS) add-on for SageMaker HyperPod observability, you can consolidate health and performance data from NVIDIA DCGM, instance-level Kubernetes node exporters, Elastic Fabric Adapter (EFA), integrated file systems, Kubernetes APIs, Kueue, and SageMaker HyperPod任务操作员。在这篇文章中,我们将带您完成安装和使用Sagemaker Hyperpod中开箱即用的可观察性功能的统一仪表板。我们介绍了来自Amazon Sagemaker AI控制台的一键安装,将其合并的仪表板和指标浏览,以及高级主题,例如设置自定义警报。

来源:亚马逊云科技 _机器学习
Amazon Sagemaker Hyperpod现在提供了一个全面的,开箱即用的仪表板,可提供对基础模型(FM)开发任务和集群资源的见解。 This unified observability solution automatically publishes key metrics to Amazon Managed Service for Prometheus and visualizes them in Amazon Managed Grafana dashboards, optimized specifically for FM development with deep coverage of hardware health, resource utilization, and task-level performance.With a one-click installation of the Amazon Elastic Kubernetes Service (Amazon EKS) add-on for SageMaker HyperPod observability, you can合并来自NVIDIA DCGM的健康和性能数据,实例级kubernetes节点出口商,弹性织物适配器(EFA),集成文件系统,Kubernetes API,Kueue和Sagemaker Hyperpod Taskod Task task Operators。有了这个统一的视图,您可以将模型开发任务性能追踪到通过在任务级别汇总资源指标的集群资源。该解决方案还抽象了跨簇的收集器和刮板的管理,随着群集的增长,跨节点的收集器的自动可扩展性。该仪表板具有跨指标和可视化的直观导航,以帮助用户诊断问题并更快地采取行动。它们也可以完全定制,支持其他PROMQL指标进口和自定义的Grafana布局。这些功能可以在FM开发过程中节省团队的宝贵时间和资源,从而帮助加速了上市时间,并降低了生成AI创新的成本。数据科学家和机器学习(ML)工程师无需花费数小时或数天的配置,收集和分析群集遥测系统,现在可以快速识别培训,调整和推理中断,未充分利用宝贵的GPU资源以及硬件性能问题。在操作FM工作负载(例如:da