Hyperpod关键词检索结果

在Amazon Sagemaker Hyperpod

Accelerate your model training with managed tiered checkpointing on Amazon SageMaker HyperPod

AWS宣布在亚马逊Sagemaker Hyperpod中宣布了托管分层的检查点,这是一种专门建立的基础架构,可扩展和加速成千上万个AI加速器的生成AI模型开发。托管分层检查点使用CPU内存进行高性能检查点存储,并在相邻计算节点上自动数据复制,以增强可靠性。在这篇文章中,我们深入研究了这些概念,并了解如何使用托管分层检查点功能。

在Amazon Sagemaker Hyperpod上引入自动缩放

Introducing auto scaling on Amazon SageMaker HyperPod

在这篇文章中,我们宣布,亚马逊萨吉式超级平台现在支持karpenter的托管节点自动扩展,从而使SageMaker HyperPod簇的有效缩放能够满足推理和培训需求。我们深入研究Karpenter的好处,并提供有关在Sagemaker HyperPod EKS群集中启用和配置Karpenter的详细信息。

使用Amazon Sagemaker Hyperpod食谱进行微调Openai GPT-oss型号

Fine-tune OpenAI GPT-OSS models using Amazon SageMaker HyperPod recipes

这篇文章是GPT-oss系列的第二部分,专注于Amazon Sagemaker AI的模型定制。在第1部分中,我们使用带有Sagemaker培训工作的开源拥抱面部库进行了微调的GPT-oss模型,该培训工作支持分布式的多GPU和多节点配置,因此您可以按需旋转高性能群集。在这篇文章中,[…]

用Amazon Sagemaker Hyperpod支持P6E-GB200 Ultraservers

Train and deploy AI models at trillion-parameter scale with Amazon SageMaker HyperPod support for P6e-GB200 UltraServers

在这篇文章中,我们回顾了P6E-GB200 Ultraservers的技术规格,讨论其性能优势,并突出关键用例。然后,我们走过如何通过灵活的培训计划购买超声处理能力,并开始使用带有Sagemaker Hyperpod的Ultraservers。

简化机器学习工作流与Skypilot上的Amazon Sagemaker Hyperpod

Streamline machine learning workflows with SkyPilot on Amazon SageMaker HyperPod

这篇文章与Skypilot共同创建者Zhanghao Wu共同撰写。生成AI和基础模型(FMS)的快速发展已大大提高了机器学习(ML)工作量的计算资源需求。现代ML管道需要有效的系统来在加速的计算资源上分配工作负载,同时确保开发人员的生产率仍然很高。组织需要基础架构解决方案[…]

在Amazon Sagemaker Hyperpod

Accelerate foundation model development with one-click observability in Amazon SageMaker HyperPod

With a one-click installation of the Amazon Elastic Kubernetes Service (Amazon EKS) add-on for SageMaker HyperPod observability, you can consolidate health and performance data from NVIDIA DCGM, instance-level Kubernetes node exporters, Elastic Fabric Adapter (EFA), integrated file systems, Kubernet

Amazon Sagemaker Hyperpod启动模型部署,以加速生成AI模型开发生命周期

Amazon SageMaker HyperPod launches model deployments to accelerate the generative AI model development lifecycle

在这篇文章中,我们宣布了亚马逊萨吉马制造商Hyperpod支持,用于从SageMaker Jumpstart部署基础模型,以及来自Amazon S3或Amazon FSX的自定义或微调模型。这种新功能使客户可以在相同的HyperPod计算资源上训练,微调和部署模型,从而最大程度地利用整个模型生命周期的资源利用率。

加速基础模型培训和与亚马逊萨吉马制造商Hyperpod和Amazon Sagemaker Studio

Accelerate foundation model training and inference with Amazon SageMaker HyperPod and Amazon SageMaker Studio

在这篇文章中,我们讨论了如何通过使用IDE和SageMaker Studio的IDE和工具以及与Amazon Eks的Sagemaker Hyperpod的可扩展性和弹性来改善和加快数据科学家的开发经验。该解决方案通过使用AWS服务提供的治理和安全功能来简化集中系统的系统管理员的设置。

训练骆驼3.3燕子:亚马逊萨吉式制造商Hyperpod

Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod

Tokyo科学院已经成功训练了Llama 3.3 Swallow,这是一种使用Amazon Sagemaker Hyperpod的700亿参数大语模型(LLM),具有增强的日本能力。该模型在日语任务中表现出了卓越的性能,表现优于GPT-4O-Mini和其他领先的模型。该技术报告详细介绍了项目期间开发的培训基础设施,优化和最佳实践。

Amazon Sagemaker Hyperpod

Accelerating Articul8’s domain-specific model development with Amazon SageMaker HyperPod

了解ARTICUL8如何使用特定于域的模型来重新定义企业生成AI,在现实世界应用中的特定模型都超过了通用LLM。在我们最新的博客文章中,我们深入研究了Amazon Sagemaker Hyperpod如何加速ArtiCul8行业领先的半导体模型的开发 - 在将部署时间削减4倍的同时,提高了2倍的准确性,以提高2倍的准确性。

气候技术初创公司如何使用Amazon Sagemaker Hyperpod

How climate tech startups are building foundation models with Amazon SageMaker HyperPod

在这篇文章中,我们展示了气候技术初创公司如何开发基础模型(FMS),这些模型(FMS)使用广泛的环境数据集来解决诸如碳捕获,碳阴性燃料,新的微塑料破坏和生态系统保存等问题。这些专业模型需要高级计算功能来有效地处理和分析大量数据。

Apoidea组如何使用亚马逊Sagemaker Hyperpod上使用Llama-Factory从银行文档中提取视觉信息

How Apoidea Group enhances visual information extraction from banking documents with multimodal models using LLaMA-Factory on Amazon SageMaker HyperPod

在这个专业信息提取解决方案的基础上建立了建立,并利用Sagemaker Hyperpod的功能,我们与Apoidea Group合作探索了使用大型视觉语言模型(LVLM)的使用,以进一步改善银行和财务文档上的表结构识别性能。在这篇文章中,我们介绍了使用Sagemaker Hyperpod上的Llama-Factory进行QWEN2-VL-7B教学模型进行微调的QWEN2-VL-7B教学模型的逐步代码。

使用Amazon Sagemaker Hyperpod

Reduce ML training costs with Amazon SageMaker HyperPod

在这篇文章中,我们探讨了大规模边界模型培训的挑战,重点是硬件故障以及亚马逊萨吉式制造商HyperPod的好处 - 一种解决方案,可最大程度地减少干扰,提高效率并降低培训成本。

在Amazon Sagemaker Hyperpod

Running NVIDIA NeMo 2.0 Framework on Amazon SageMaker HyperPod

在这篇博客文章中,我们探讨了如何将Nemo 2.0与Sagemaker Hyperpod集成,以实现对大型语言模型(LLMS)的有效培训。我们介绍设置过程,并提供逐步指南,以在Sagemaker HyperPod群集上运行NEMO作业。

使用Amazon Sagemaker Hyperpod

Unleash AI innovation with Amazon SageMaker HyperPod

在这篇文章中,我们展示了SageMaker HyperPod及其在AWS RE:Invent 2024上引入的新功能如何满足现代AI工作负载的需求,从而提供了针对分布式培训和加速推理的持久和优化的群集,并在云规模上加速推理和有吸引力的价格。

使用Amazon Sagemaker Hyperpod食谱自定义DeepSeek-R1蒸馏型 - 第1部分

Customize DeepSeek-R1 distilled models using Amazon SageMaker HyperPod recipes – Part 1

在这个两部分的系列中,我们讨论了如何通过使用deepSeek-R1模型及其蒸馏变量的预先构建的微调工作流(也称为“食谱”)来减少DeepSeek模型的自定义复杂性,并作为亚马逊SageMaker HyproPod食谱的一部分发布。 In this first post, we will build a solution architecture for fine-tuning DeepSeek-R1 distilled models and demonstrate the approach by providing a step-by-step example on customizing t

Amazon Sagemaker Hyperpod任务治理的最佳实践

Best practices for Amazon SageMaker HyperPod task governance

在这篇文章中,我们提供了最佳实践,以最大程度地提高SageMaker HyperPod任务治理的价值,并使管理和数据科学体验无缝。在管理和运行生成的AI开发任务时,我们还讨论了共同的治理方案。

使用高地形任务治理量最大化高地形群集利用率细粒度配额分配

Maximize HyperPod Cluster utilization with HyperPod task governance fine-grained quota allocation

我们很高兴地宣布高元素和内存配额分配的一般可用性,并宣布高架任务治理。借助此功能,客户可以优化Amazon弹性Kubernetes服务(Amazon EKS)上的Amazon Sagemaker HyperPod群集利用,分发公平用法,并支持不同团队或项目之间的有效资源分配。有关更多信息,请参见HyperPod Task Task Ponsectance […]