Customize DeepSeek-R1 671b model using Amazon SageMaker HyperPod recipes – Part 2
在这篇文章中,我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod的逐步实施这些食谱来证明这一点。
PEFT fine tuning of Llama 3 on SageMaker HyperPod with AWS Trainium
在这篇博文中,我们展示了如何使用 AWS Trainium 上的 PEFT 和 SageMaker HyperPod 对 Meta Llama 3 模型进行高效的监督微调。我们使用 HuggingFace 的 Optimum-Neuron 软件开发工具包 (SDK) 将 LoRA 应用于微调作业,并使用 SageMaker HyperPod 作为主要计算集群在 Trainium 上执行分布式训练。使用 LoRA 监督微调 Meta Llama 3 模型,您可以进一步将微调模型的成本降低高达 50%,并将训练时间缩短 70%。
Fastweb 是意大利领先的电信运营商之一,很早就认识到了 AI 技术的巨大潜力,并于 2019 年开始在该领域进行投资。在本文中,我们将探讨 Fastweb 如何利用尖端的 AI 和 ML 服务踏上他们的 LLM 之旅,克服挑战并在此过程中解锁新机遇。
Implementing login node load balancing in SageMaker HyperPod for enhanced multi-user experience
在本文中,我们探讨了在基于 Slurm 的 HyperPod 集群中跨登录节点实现负载平衡的解决方案。通过在所有可用节点上均匀分布用户活动,这种方法为所有用户提供了更一致的性能、更好的资源利用率和更流畅的体验。我们将指导您完成设置过程,并提供在 HyperPod 集群中实现有效负载平衡的实用步骤。
Speed up your cluster procurement time with Amazon SageMaker HyperPod training plans
在本文中,我们将演示如何使用 Amazon SageMaker HyperPod 训练计划来缩短训练集群采购等待时间。我们将逐步指导您如何使用 (AWS CLI) 或 AWS 管理控制台查找、查看和创建适合您特定计算和时间线需求的最佳训练计划。我们将进一步指导您使用训练计划提交 SageMaker 训练作业或创建 SageMaker HyperPod 集群。
Scale ML workflows with Amazon SageMaker Studio and Amazon SageMaker HyperPod
Amazon SageMaker Studio 和 Amazon SageMaker HyperPod 的集成提供了一种简化的解决方案,为数据科学家和 ML 工程师提供了一个全面的环境,支持从开发到大规模部署的整个 ML 生命周期。在这篇文章中,我们将引导您完成使用 SageMaker Studio 和 SageMaker HyperPod 扩展 ML 工作负载的过程。
Introducing Amazon EKS support in Amazon SageMaker HyperPod
这篇文章专为 Kubernetes 集群管理员和 ML 科学家设计,概述了 SageMaker HyperPod 引入的关键功能,以促进在 EKS 集群上进行大规模模型训练。
Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod
Tokyo科学院已经成功训练了Llama 3.3 Swallow,这是一种使用Amazon Sagemaker Hyperpod的700亿参数大语模型(LLM),具有增强的日本能力。该模型在日语任务中表现出了卓越的性能,表现优于GPT-4O-Mini和其他领先的模型。该技术报告详细介绍了项目期间开发的培训基础设施,优化和最佳实践。
Accelerating Articul8’s domain-specific model development with Amazon SageMaker HyperPod
了解ARTICUL8如何使用特定于域的模型来重新定义企业生成AI,在现实世界应用中的特定模型都超过了通用LLM。在我们最新的博客文章中,我们深入研究了Amazon Sagemaker Hyperpod如何加速ArtiCul8行业领先的半导体模型的开发 - 在将部署时间削减4倍的同时,提高了2倍的准确性,以提高2倍的准确性。
Multi-account support for Amazon SageMaker HyperPod task governance
在这篇文章中,我们讨论了具有多个帐户的企业如何访问共享的Amazon Sagemaker HyperPod群集以运行其异质工作负载。我们使用SageMaker HyperPod任务治理来启用此功能。
How climate tech startups are building foundation models with Amazon SageMaker HyperPod
在这篇文章中,我们展示了气候技术初创公司如何开发基础模型(FMS),这些模型(FMS)使用广泛的环境数据集来解决诸如碳捕获,碳阴性燃料,新的微塑料破坏和生态系统保存等问题。这些专业模型需要高级计算功能来有效地处理和分析大量数据。
在这个专业信息提取解决方案的基础上建立了建立,并利用Sagemaker Hyperpod的功能,我们与Apoidea Group合作探索了使用大型视觉语言模型(LVLM)的使用,以进一步改善银行和财务文档上的表结构识别性能。在这篇文章中,我们介绍了使用Sagemaker Hyperpod上的Llama-Factory进行QWEN2-VL-7B教学模型进行微调的QWEN2-VL-7B教学模型的逐步代码。
Reduce ML training costs with Amazon SageMaker HyperPod
在这篇文章中,我们探讨了大规模边界模型培训的挑战,重点是硬件故障以及亚马逊萨吉式制造商HyperPod的好处 - 一种解决方案,可最大程度地减少干扰,提高效率并降低培训成本。
Ray jobs on Amazon SageMaker HyperPod: scalable and resilient distributed AI
Ray是一个开源框架,使创建,部署和优化分布式Python作业变得直接。在这篇文章中,我们演示了在Sagemaker Hyperpod上运行射线作业的步骤。
Running NVIDIA NeMo 2.0 Framework on Amazon SageMaker HyperPod
在这篇博客文章中,我们探讨了如何将Nemo 2.0与Sagemaker Hyperpod集成,以实现对大型语言模型(LLMS)的有效培训。我们介绍设置过程,并提供逐步指南,以在Sagemaker HyperPod群集上运行NEMO作业。
Unleash AI innovation with Amazon SageMaker HyperPod
在这篇文章中,我们展示了SageMaker HyperPod及其在AWS RE:Invent 2024上引入的新功能如何满足现代AI工作负载的需求,从而提供了针对分布式培训和加速推理的持久和优化的群集,并在云规模上加速推理和有吸引力的价格。
Customize DeepSeek-R1 distilled models using Amazon SageMaker HyperPod recipes – Part 1
在这个两部分的系列中,我们讨论了如何通过使用deepSeek-R1模型及其蒸馏变量的预先构建的微调工作流(也称为“食谱”)来减少DeepSeek模型的自定义复杂性,并作为亚马逊SageMaker HyproPod食谱的一部分发布。 In this first post, we will build a solution architecture for fine-tuning DeepSeek-R1 distilled models and demonstrate the approach by providing a step-by-step example on customizing t
Best practices for Amazon SageMaker HyperPod task governance
在这篇文章中,我们提供了最佳实践,以最大程度地提高SageMaker HyperPod任务治理的价值,并使管理和数据科学体验无缝。在管理和运行生成的AI开发任务时,我们还讨论了共同的治理方案。