使用Amazon Sagemaker HyperPod食谱自定义DeepSeek-R1 671b型号 - 第2部分

在这篇文章中,我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod的逐步实施这些食谱来证明这一点。

来源:亚马逊云科技 _机器学习
这篇文章是DeepSeek系列的第二部分,专注于使用Amazon Sagemaker HyperPod配方(或简短的食谱)进行模型定制。在第1部分中,我们证明了使用这些配方的微调DeepSeek-R1蒸馏型模型的性能和易用性。在这篇文章中,我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod.Business使用Caster的公开发行,DeepSeek-R1模型(由DeepSeek AI开发)在这些食谱的逐步实施中证明了这一点。该模型遵循专家(MOE)体系结构的混合物,并具有6710亿个参数。传统上,大型模型非常适合各种广泛的任务,因为他们接受了大量数据的培训。 DeepSeek-R1型号接受了14.8万亿代币的培训。最初的R1模型显示出强大的几次或零拍的学习能力,使其可以推广到不参与其原始培训的一部分的新任务和方案。但是,许多客户更喜欢对这些模型进行微调或连续进行这些模型的持续预培训,以使其适应其特定业务应用程序或优化其特定任务。金融组织可能希望使用其自定义数据自定义模型,以协助其数据处理任务。或医院网络可以用患者记录对其进行微调,以充当医生的医疗助理。微调还可以扩展模型的概括能力。客户可以用特定语言的文本语料库对原始培训数据中未完全表示的文本进行微调。例如,一个用额外的印度语言代币进行微调的模型将能够将相同的概括能力扩展到印地语。决定哪种模型依赖于最终应用程序以及可用的