在Amazon Sagemaker AI

在这篇文章中,我们演示了如何通过Amazon Sagemaker AI优化托管DeepSeek-R1蒸馏型模型(TGI)。

来源:亚马逊云科技 _机器学习
DeepSeek-R1是一种先进的大型语言模型(LLM),其创新的多阶段培训过程与众不同。 DeepSeek-R1不仅依靠传统的预训练和微调,而是整合了增强学习以实现更精致的输出。该模型采用了一种经过思考链(COT)方法,该方法系统地将复杂的查询分解为清晰的逻辑步骤。此外,它使用NVIDIA的并行线程执行(PTX)来提高训练效率,并使用监督的微调(SFT)和组强大的策略优化(GRPO)的组合框架确保其结果既透明又可解释。 variants当前的DeepSeek模型集合包括以下模型:DeepSeek-V3 - 使用Experts(MOE)体系结构的LLM。 DeepSeek-V3和Mixtral等MOE模型用一组称为专家的平行子网络代替了变压器中的标准馈电神经网络。这些专家对每个输入有选择性激活,从而使模型可以有效地扩展到更大的尺寸,而无需相应的计算成本增加。例如,DeepSeek-V3是一个6710亿参数模型,但在每个令牌的输出期间,仅激活了370亿个参数(约5%)。 DeepSeek-V3碱基是从中得出R1变体的基本模型。DeepSeek-R1-Zero - 基于使用加强学习来指导COT推理能力的DeepSeek-V3的微调变体,而没有任何先前完成的SFT。根据DeepSeek R1论文的说法,DeepSeek-R1-Zero在推理行为方面表现出色,但遇到了可读性和语言混合的挑战。Deepseek-r1 - DeepSeek-V3基本的另一种微调变体,类似于DeepSeek-R1-Zero,但具有多样性的