使用Amazon Sagemaker Hyperpod食谱自定义DeepSeek-R1蒸馏型 - 第1部分

在这个两部分的系列中,我们讨论了如何通过使用deepSeek-R1模型及其蒸馏变量的预先构建的微调工作流(也称为“食谱”)来减少DeepSeek模型的自定义复杂性,并作为亚马逊SageMaker HyproPod食谱的一部分发布。 In this first post, we will build a solution architecture for fine-tuning DeepSeek-R1 distilled models and demonstrate the approach by providing a step-by-step example on customizing the DeepSeek-R1 Distill Qwen 7b model using recipes, achieving an average of 25% on all the Rouge scores, with a maximum of 49% on Rouge 2 score with both SageMaker HyperPod and SageMaker training jobs.该系列的第二部分将着重于微调DeepSeek-R1 671b模型本身。

来源:亚马逊云科技 _机器学习
越来越多地,各个行业的组织正在转向生成的AI基础模型(FMS)来增强其应用。为了实现特定用例的最佳性能,客户正在采用并将这些FMS适应其独特的域要求。随着新模型的出现,这种自定义的需求变得更加明显,例如DeepSeek发布的模型。调整模型体系结构需要技术专长,培训和微调参数,以及管理分布式培训基础架构等。 This often forces companies to choose between model performance and practical implementation constraints, creating a critical need for more accessible and streamlined model customization solutions.In this two-part series, we discuss how you can reduce the DeepSeek model customization complexity by using the pre-built fine-tuning workflows (also called “recipes”) for both DeepSeek-R1 model and its distilled variations, released as part of Amazon SageMaker HyperPod recipes.In this first post, we将构建一个解决方案架构,用于微调DeepSeek-R1蒸馏型模型,并通过提供一个逐步的示例,用于使用食谱来定制DeepSeek-R1 Distill Qwen 7b型号,平均在所有Rouge得分上达到25%,并在Rouge 2得分上获得最高49%的Rouge 2得分,两家SageMake Hyperpodpodpodpodpodpodpod训练和Sagemakemaker训练工作。该系列的第二部分将重点介绍DeepSeek-R1 671b模型本身。在撰写本文时,DeepSeek-R1模型及其对Llama和Qwen的蒸馏变化是最新发布的食谱。在Github上查看最新发布的食谱,包括支持DeepSeek-R1 671B参数模型。AmazonSagemaker HyperPod食谱Re:Invent 2024,我们宣布了一般性供应