Schedule topology-aware workloads using Amazon SageMaker HyperPod task governance
在这篇文章中,我们通过提交代表层次网络信息的作业来介绍使用SageMaker HyperPod任务治理的拓扑感知调度。我们提供有关如何使用SageMaker HyperPod任务治理来优化您的工作效率的详细信息。
Accelerate large-scale AI training with Amazon SageMaker HyperPod training operator
在这篇文章中,我们演示了如何使用 Amazon SageMaker HyperPod 训练操作器部署和管理机器学习训练工作负载,该操作器通过精确恢复和可定制的监控功能增强 Kubernetes 工作负载的训练弹性。 Amazon SageMaker HyperPod 训练运算符通过有效管理跨大型 GPU 集群的分布式训练来帮助加速生成式 AI 模型开发,提供集中训练过程监控、精细过程恢复和挂起作业检测等优势,可将恢复时间从数十分钟缩短到几秒钟。
Splash Music transforms music generation using AWS Trainium and Amazon SageMaker HyperPod
在这篇文章中,我们展示了 Splash Music 如何通过在 Amazon SageMaker HyperPod 上结合使用其先进的 HummingLM 模型和 AWS Trainium,为 AI 驱动的音乐创作设定新标准。作为 2024 年 AWS Generative AI Accelerator 中入选的初创公司,Splash Music 与 AWS Startups 和 AWS GenAIIC 密切合作,以快速跟踪创新并加速其音乐生成 FM 开发生命周期。
Use Amazon SageMaker HyperPod and Anyscale for next-generation distributed computing
在这篇文章中,我们演示了如何将 Amazon SageMaker HyperPod 与 Anyscale 平台集成,以解决构建和部署大规模 AI 模型时的关键基础设施挑战。该组合解决方案通过高性能硬件、持续监控以及与领先的 AI 计算引擎 Ray 的无缝集成,为分布式 AI 工作负载提供强大的基础设施,使组织能够缩短上市时间并降低总体拥有成本。