详细内容或原文请订阅后点击阅览
使用Amazon Sagemaker Hyperpod食谱自定义DeepSeek-R1蒸馏型 - 第1部分
在这个两部分的系列中,我们讨论了如何通过使用deepSeek-R1模型及其蒸馏变量的预先构建的微调工作流(也称为“食谱”)来减少DeepSeek模型的自定义复杂性,并作为亚马逊SageMaker HyproPod食谱的一部分发布。 In this first post, we will build a solution architecture for fine-tuning DeepSeek-R1 distilled models and demonstrate the approach by providing a step-by-step example on customizing the DeepSeek-R1 Distill Qwen 7b model using recipes, achieving an average of 25% on all the Rouge scores, with a maximum of 49% on Rouge 2 score with both SageMaker HyperPod and SageMaker training jobs.该系列的第二部分将着重于微调DeepSeek-R1 671b模型本身。
来源:亚马逊云科技 _机器学习