Accelerate your model training with managed tiered checkpointing on Amazon SageMaker HyperPod
AWS宣布在亚马逊Sagemaker Hyperpod中宣布了托管分层的检查点,这是一种专门建立的基础架构,可扩展和加速成千上万个AI加速器的生成AI模型开发。托管分层检查点使用CPU内存进行高性能检查点存储,并在相邻计算节点上自动数据复制,以增强可靠性。在这篇文章中,我们深入研究了这些概念,并了解如何使用托管分层检查点功能。
Introducing auto scaling on Amazon SageMaker HyperPod
在这篇文章中,我们宣布,亚马逊萨吉式超级平台现在支持karpenter的托管节点自动扩展,从而使SageMaker HyperPod簇的有效缩放能够满足推理和培训需求。我们深入研究Karpenter的好处,并提供有关在Sagemaker HyperPod EKS群集中启用和配置Karpenter的详细信息。
Fine-tune OpenAI GPT-OSS models using Amazon SageMaker HyperPod recipes
这篇文章是GPT-oss系列的第二部分,专注于Amazon Sagemaker AI的模型定制。在第1部分中,我们使用带有Sagemaker培训工作的开源拥抱面部库进行了微调的GPT-oss模型,该培训工作支持分布式的多GPU和多节点配置,因此您可以按需旋转高性能群集。在这篇文章中,[…]
在这篇文章中,我们回顾了P6E-GB200 Ultraservers的技术规格,讨论其性能优势,并突出关键用例。然后,我们走过如何通过灵活的培训计划购买超声处理能力,并开始使用带有Sagemaker Hyperpod的Ultraservers。
Streamline machine learning workflows with SkyPilot on Amazon SageMaker HyperPod
这篇文章与Skypilot共同创建者Zhanghao Wu共同撰写。生成AI和基础模型(FMS)的快速发展已大大提高了机器学习(ML)工作量的计算资源需求。现代ML管道需要有效的系统来在加速的计算资源上分配工作负载,同时确保开发人员的生产率仍然很高。组织需要基础架构解决方案[…]
Accelerate foundation model development with one-click observability in Amazon SageMaker HyperPod
With a one-click installation of the Amazon Elastic Kubernetes Service (Amazon EKS) add-on for SageMaker HyperPod observability, you can consolidate health and performance data from NVIDIA DCGM, instance-level Kubernetes node exporters, Elastic Fabric Adapter (EFA), integrated file systems, Kubernet
在这篇文章中,我们宣布了亚马逊萨吉马制造商Hyperpod支持,用于从SageMaker Jumpstart部署基础模型,以及来自Amazon S3或Amazon FSX的自定义或微调模型。这种新功能使客户可以在相同的HyperPod计算资源上训练,微调和部署模型,从而最大程度地利用整个模型生命周期的资源利用率。
在这篇文章中,我们讨论了如何通过使用IDE和SageMaker Studio的IDE和工具以及与Amazon Eks的Sagemaker Hyperpod的可扩展性和弹性来改善和加快数据科学家的开发经验。该解决方案通过使用AWS服务提供的治理和安全功能来简化集中系统的系统管理员的设置。
Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod
Tokyo科学院已经成功训练了Llama 3.3 Swallow,这是一种使用Amazon Sagemaker Hyperpod的700亿参数大语模型(LLM),具有增强的日本能力。该模型在日语任务中表现出了卓越的性能,表现优于GPT-4O-Mini和其他领先的模型。该技术报告详细介绍了项目期间开发的培训基础设施,优化和最佳实践。
Accelerating Articul8’s domain-specific model development with Amazon SageMaker HyperPod
了解ARTICUL8如何使用特定于域的模型来重新定义企业生成AI,在现实世界应用中的特定模型都超过了通用LLM。在我们最新的博客文章中,我们深入研究了Amazon Sagemaker Hyperpod如何加速ArtiCul8行业领先的半导体模型的开发 - 在将部署时间削减4倍的同时,提高了2倍的准确性,以提高2倍的准确性。
How climate tech startups are building foundation models with Amazon SageMaker HyperPod
在这篇文章中,我们展示了气候技术初创公司如何开发基础模型(FMS),这些模型(FMS)使用广泛的环境数据集来解决诸如碳捕获,碳阴性燃料,新的微塑料破坏和生态系统保存等问题。这些专业模型需要高级计算功能来有效地处理和分析大量数据。
在这个专业信息提取解决方案的基础上建立了建立,并利用Sagemaker Hyperpod的功能,我们与Apoidea Group合作探索了使用大型视觉语言模型(LVLM)的使用,以进一步改善银行和财务文档上的表结构识别性能。在这篇文章中,我们介绍了使用Sagemaker Hyperpod上的Llama-Factory进行QWEN2-VL-7B教学模型进行微调的QWEN2-VL-7B教学模型的逐步代码。
Reduce ML training costs with Amazon SageMaker HyperPod
在这篇文章中,我们探讨了大规模边界模型培训的挑战,重点是硬件故障以及亚马逊萨吉式制造商HyperPod的好处 - 一种解决方案,可最大程度地减少干扰,提高效率并降低培训成本。
Running NVIDIA NeMo 2.0 Framework on Amazon SageMaker HyperPod
在这篇博客文章中,我们探讨了如何将Nemo 2.0与Sagemaker Hyperpod集成,以实现对大型语言模型(LLMS)的有效培训。我们介绍设置过程,并提供逐步指南,以在Sagemaker HyperPod群集上运行NEMO作业。
Unleash AI innovation with Amazon SageMaker HyperPod
在这篇文章中,我们展示了SageMaker HyperPod及其在AWS RE:Invent 2024上引入的新功能如何满足现代AI工作负载的需求,从而提供了针对分布式培训和加速推理的持久和优化的群集,并在云规模上加速推理和有吸引力的价格。
Customize DeepSeek-R1 distilled models using Amazon SageMaker HyperPod recipes – Part 1
在这个两部分的系列中,我们讨论了如何通过使用deepSeek-R1模型及其蒸馏变量的预先构建的微调工作流(也称为“食谱”)来减少DeepSeek模型的自定义复杂性,并作为亚马逊SageMaker HyproPod食谱的一部分发布。 In this first post, we will build a solution architecture for fine-tuning DeepSeek-R1 distilled models and demonstrate the approach by providing a step-by-step example on customizing t
Best practices for Amazon SageMaker HyperPod task governance
在这篇文章中,我们提供了最佳实践,以最大程度地提高SageMaker HyperPod任务治理的价值,并使管理和数据科学体验无缝。在管理和运行生成的AI开发任务时,我们还讨论了共同的治理方案。
Maximize HyperPod Cluster utilization with HyperPod task governance fine-grained quota allocation
我们很高兴地宣布高元素和内存配额分配的一般可用性,并宣布高架任务治理。借助此功能,客户可以优化Amazon弹性Kubernetes服务(Amazon EKS)上的Amazon Sagemaker HyperPod群集利用,分发公平用法,并支持不同团队或项目之间的有效资源分配。有关更多信息,请参见HyperPod Task Task Ponsectance […]