使用 QLoRA 加速 Amazon SageMaker 上的 Mixtral MoE 微调 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 QLoRA 加速 Amazon SageMaker 上的 Mixtral MoE 微调

2024年11月22日 22:52 33 Comments

在本文中，我们将演示如何通过使用完全托管的环境和 Amazon SageMaker 训练作业来使用 PyTorch 完全分片数据并行 (FSDP) 和量化低秩自适应 (QLoRA) 对 Mixtral 8x7B 模型进行微调，从而解决模型定制复杂、耗时且通常成本高昂的挑战。

来源:亚马逊云科技 _机器学习

不同规模和行业的公司都在使用大型语言模型 (LLM) 来开发生成式 AI 应用程序，为客户和员工提供创新体验。但是，在大量数据集上构建或微调这些预训练的 LLM 需要大量的计算资源和工程工作。随着这些预训练的 LLM 规模的增加，模型定制过程变得复杂、耗时，而且对于大多数缺乏必要基础设施和熟练人才的组织来说，成本往往高得令人望而却步。

生成式 AI

在本文中，我们将演示如何通过使用完全托管的环境和 Amazon SageMaker 训练作业来应对这些挑战，使用 PyTorch 完全分片数据并行 (FSDP) 和量化低秩自适应 (QLoRA) 对 Mixtral 8x7B 模型进行微调。

Amazon SageMaker 训练 Mixtral 8x7B PyTorch 完全分片数据并行量化低秩自适应

我们将指导您在 GEM/viggo 数据集上逐步实施模型微调，在单个 p4d.24xlarge 工作节点（提供 8 个 Nvidia A100 40GB GPU）上采用 QLoRA 微调策略。

GEM/viggo p4d.24xlarge

业务挑战

专家的稀疏混合

这些 FM 适用于许多用例，但缺乏特定于领域的信息，从而限制了它们在某些任务上的性能。这要求企业使用微调策略将这些大型 FM 适应特定领域，从而提高目标应用程序的性能。由于模型参数数量不断增加，这些现代 LLM 的上下文长度不断增加，这个过程需要大量内存，需要高级 AI 专业知识才能有效地调整和优化它们。配置和管理基础设施的成本增加了端到端解决方案的总体拥有成本。

在下一节中，我们将讨论如何使用 Amazon SageMaker 的高级内存优化技术以经济高效的方式构建这样的解决方案。

bfloat16 h X

应用程序成本增加 LLM AI 数据集 SageMaker 拥有成本模型领域使用需要训练的自适应端到端增加微调过程性能生成式基础设施计算资源挑战提高 Amazon

使用 QLoRA 加速 Amazon SageMaker 上的 Mixtral MoE 微调

业务挑战

其他外部链接

Tags

XiaoMi-AI