详细内容或原文请订阅后点击阅览
使用 QLoRA 加速 Amazon SageMaker 上的 Mixtral MoE 微调
在本文中,我们将演示如何通过使用完全托管的环境和 Amazon SageMaker 训练作业来使用 PyTorch 完全分片数据并行 (FSDP) 和量化低秩自适应 (QLoRA) 对 Mixtral 8x7B 模型进行微调,从而解决模型定制复杂、耗时且通常成本高昂的挑战。
来源:亚马逊云科技 _机器学习不同规模和行业的公司都在使用大型语言模型 (LLM) 来开发生成式 AI 应用程序,为客户和员工提供创新体验。但是,在大量数据集上构建或微调这些预训练的 LLM 需要大量的计算资源和工程工作。随着这些预训练的 LLM 规模的增加,模型定制过程变得复杂、耗时,而且对于大多数缺乏必要基础设施和熟练人才的组织来说,成本往往高得令人望而却步。
生成式 AI在本文中,我们将演示如何通过使用完全托管的环境和 Amazon SageMaker 训练作业来应对这些挑战,使用 PyTorch 完全分片数据并行 (FSDP) 和量化低秩自适应 (QLoRA) 对 Mixtral 8x7B 模型进行微调。
Amazon SageMaker 训练 Mixtral 8x7B PyTorch 完全分片数据并行 量化低秩自适应我们将指导您在 GEM/viggo 数据集上逐步实施模型微调,在单个 p4d.24xlarge 工作节点(提供 8 个 Nvidia A100 40GB GPU)上采用 QLoRA 微调策略。
GEM/viggop4d.24xlarge
业务挑战
专家的稀疏混合这些 FM 适用于许多用例,但缺乏特定于领域的信息,从而限制了它们在某些任务上的性能。这要求企业使用微调策略将这些大型 FM 适应特定领域,从而提高目标应用程序的性能。由于模型参数数量不断增加,这些现代 LLM 的上下文长度不断增加,这个过程需要大量内存,需要高级 AI 专业知识才能有效地调整和优化它们。配置和管理基础设施的成本增加了端到端解决方案的总体拥有成本。
在下一节中,我们将讨论如何使用 Amazon SageMaker 的高级内存优化技术以经济高效的方式构建这样的解决方案。
bfloat16 h X