Customize DeepSeek-R1 671b model using Amazon SageMaker HyperPod recipes – Part 2
在这篇文章中,我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod的逐步实施这些食谱来证明这一点。
PEFT fine tuning of Llama 3 on SageMaker HyperPod with AWS Trainium
在这篇博文中,我们展示了如何使用 AWS Trainium 上的 PEFT 和 SageMaker HyperPod 对 Meta Llama 3 模型进行高效的监督微调。我们使用 HuggingFace 的 Optimum-Neuron 软件开发工具包 (SDK) 将 LoRA 应用于微调作业,并使用 SageMaker HyperPod 作为主要计算集群在 Trainium 上执行分布式训练。使用 LoRA 监督微调 Meta Llama 3 模型,您可以进一步将微调模型的成本降低高达 50%,并将训练时间缩短 70%。
Fastweb 是意大利领先的电信运营商之一,很早就认识到了 AI 技术的巨大潜力,并于 2019 年开始在该领域进行投资。在本文中,我们将探讨 Fastweb 如何利用尖端的 AI 和 ML 服务踏上他们的 LLM 之旅,克服挑战并在此过程中解锁新机遇。
Implementing login node load balancing in SageMaker HyperPod for enhanced multi-user experience
在本文中,我们探讨了在基于 Slurm 的 HyperPod 集群中跨登录节点实现负载平衡的解决方案。通过在所有可用节点上均匀分布用户活动,这种方法为所有用户提供了更一致的性能、更好的资源利用率和更流畅的体验。我们将指导您完成设置过程,并提供在 HyperPod 集群中实现有效负载平衡的实用步骤。
Speed up your cluster procurement time with Amazon SageMaker HyperPod training plans
在本文中,我们将演示如何使用 Amazon SageMaker HyperPod 训练计划来缩短训练集群采购等待时间。我们将逐步指导您如何使用 (AWS CLI) 或 AWS 管理控制台查找、查看和创建适合您特定计算和时间线需求的最佳训练计划。我们将进一步指导您使用训练计划提交 SageMaker 训练作业或创建 SageMaker HyperPod 集群。
Scale ML workflows with Amazon SageMaker Studio and Amazon SageMaker HyperPod
Amazon SageMaker Studio 和 Amazon SageMaker HyperPod 的集成提供了一种简化的解决方案,为数据科学家和 ML 工程师提供了一个全面的环境,支持从开发到大规模部署的整个 ML 生命周期。在这篇文章中,我们将引导您完成使用 SageMaker Studio 和 SageMaker HyperPod 扩展 ML 工作负载的过程。
Introducing Amazon EKS support in Amazon SageMaker HyperPod
这篇文章专为 Kubernetes 集群管理员和 ML 科学家设计,概述了 SageMaker HyperPod 引入的关键功能,以促进在 EKS 集群上进行大规模模型训练。
在这篇文章中,我们回顾了P6E-GB200 Ultraservers的技术规格,讨论其性能优势,并突出关键用例。然后,我们走过如何通过灵活的培训计划购买超声处理能力,并开始使用带有Sagemaker Hyperpod的Ultraservers。
Advanced fine-tuning methods on Amazon SageMaker AI
在AWS上微调ML模型时,您可以为您的特定需求选择合适的工具。 AWS为数据科学家,ML工程师和业务用户提供了一系列全面的工具,以实现其ML目标。 AWS建立了支持各种ML复杂性的解决方案,从简单的Sagemaker培训工作进行FM微调到萨吉马制造商Hyperpod的力量进行尖端研究。我们邀请您探索这些选项,从适合您当前需求的内容开始,并随着这些需求的变化而发展您的方法。
Streamline machine learning workflows with SkyPilot on Amazon SageMaker HyperPod
这篇文章与Skypilot共同创建者Zhanghao Wu共同撰写。生成AI和基础模型(FMS)的快速发展已大大提高了机器学习(ML)工作量的计算资源需求。现代ML管道需要有效的系统来在加速的计算资源上分配工作负载,同时确保开发人员的生产率仍然很高。组织需要基础架构解决方案[…]
New capabilities in Amazon SageMaker AI continue to transform how organizations develop AI models
在这篇文章中,我们分享了Sagemaker AI中的一些新创新,这些创新可以加速您的构建和培训AI模型。这些创新包括SageMaker Hyperpod中的新可观察性功能,在HyperPod上部署JumpStart模型的能力,从本地开发环境中与SageMaker AI的远程连接以及完全管理的MLFLOW 3.0。
Accelerate foundation model development with one-click observability in Amazon SageMaker HyperPod
With a one-click installation of the Amazon Elastic Kubernetes Service (Amazon EKS) add-on for SageMaker HyperPod observability, you can consolidate health and performance data from NVIDIA DCGM, instance-level Kubernetes node exporters, Elastic Fabric Adapter (EFA), integrated file systems, Kubernet
在这篇文章中,我们宣布了亚马逊萨吉马制造商Hyperpod支持,用于从SageMaker Jumpstart部署基础模型,以及来自Amazon S3或Amazon FSX的自定义或微调模型。这种新功能使客户可以在相同的HyperPod计算资源上训练,微调和部署模型,从而最大程度地利用整个模型生命周期的资源利用率。
在这篇文章中,我们讨论了如何通过使用IDE和SageMaker Studio的IDE和工具以及与Amazon Eks的Sagemaker Hyperpod的可扩展性和弹性来改善和加快数据科学家的开发经验。该解决方案通过使用AWS服务提供的治理和安全功能来简化集中系统的系统管理员的设置。
Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod
Tokyo科学院已经成功训练了Llama 3.3 Swallow,这是一种使用Amazon Sagemaker Hyperpod的700亿参数大语模型(LLM),具有增强的日本能力。该模型在日语任务中表现出了卓越的性能,表现优于GPT-4O-Mini和其他领先的模型。该技术报告详细介绍了项目期间开发的培训基础设施,优化和最佳实践。
Accelerating Articul8’s domain-specific model development with Amazon SageMaker HyperPod
了解ARTICUL8如何使用特定于域的模型来重新定义企业生成AI,在现实世界应用中的特定模型都超过了通用LLM。在我们最新的博客文章中,我们深入研究了Amazon Sagemaker Hyperpod如何加速ArtiCul8行业领先的半导体模型的开发 - 在将部署时间削减4倍的同时,提高了2倍的准确性,以提高2倍的准确性。
Multi-account support for Amazon SageMaker HyperPod task governance
在这篇文章中,我们讨论了具有多个帐户的企业如何访问共享的Amazon Sagemaker HyperPod群集以运行其异质工作负载。我们使用SageMaker HyperPod任务治理来启用此功能。
How climate tech startups are building foundation models with Amazon SageMaker HyperPod
在这篇文章中,我们展示了气候技术初创公司如何开发基础模型(FMS),这些模型(FMS)使用广泛的环境数据集来解决诸如碳捕获,碳阴性燃料,新的微塑料破坏和生态系统保存等问题。这些专业模型需要高级计算功能来有效地处理和分析大量数据。