使用 Llama 3.1 405B 生成用于微调任务的合成数据 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Llama 3.1 405B 生成用于微调任务的合成数据

2024年7月23日 16:18 33 Comments

今天，我们很高兴地宣布 Llama 3.1 405B 模型已在 Amazon SageMaker JumpStart 和 Amazon Bedrock 上推出预览版。 Llama 3.1 模型是一组先进的预训练和指导微调的生成式人工智能 (AI) 模型，大小分别为 8B、70B 和 405B。Amazon SageMaker JumpStart 是一个机器学习 (ML) 中心，提供对算法、模型和 ML 解决方案的访问，以便您可以快速开始使用 ML。Amazon Bedrock 提供了一种使用 Meta Llama 模型构建和扩展生成式 AI 应用程序的简单方法，只需一个 API 即可。

来源:亚马逊云科技 _机器学习

今天，我们很高兴地宣布 Llama 3.1 405B 模型已在 Amazon SageMaker JumpStart 和 Amazon Bedrock 上推出预览版。Llama 3.1 模型是一组最先进的预训练和指导微调生成式人工智能 (AI) 模型，大小分别为 8B、70B 和 405B。Amazon SageMaker JumpStart 是一个机器学习 (ML) 中心，可访问算法、模型和 ML 解决方案，以便您快速开始使用 ML。Amazon Bedrock 提供了一种使用 Meta Llama 模型构建和扩展生成式 AI 应用程序的简单方法，只需一个 API。

Amazon SageMaker JumpStart Amazon Bedrock Amazon SageMaker JumpStart Amazon Bedrock

在本文中，我们将展示如何使用 Llama 3.1 405B 生成数据（样本数据集的标签），以及如何使用生成的数据进行提炼，以微调较小的模型（如 Llama 3 8B），从而生成比非微调模型更好的响应。我们还提供了可用于运行和测试解决方案的代码笔记本。

代码笔记本

Llama 3.1 405B 概述

Llama 3.1 多语言大型语言模型 (LLM) 集合是一组预先训练和指令调整的生成模型，大小为 8B、70B 和 405B（文本输入/文本输出）。所有模型都支持长上下文长度（128,000），并针对推理进行了优化，支持分组查询注意 (GQA)。Llama 3.1 指令调整的纯文本模型（8B、70B、405B）针对多语言对话用例进行了优化，并且在常见的行业基准上优于许多公开可用的聊天模型。

Amazon SageMaker us-west-2

先决条件

需要满足以下先决条件才能实施本文中概述的步骤：

Llama 3 8B Instruct 模型的响应

Meta Llama 3 模型现已在 Amazon Bedrock 中提供 Meta Llama 3 模型现已在 Amazon SageMaker JumpStart 中提供

Llama 3 8B 模型能够毫无问题地生成问题的答案。

Hugging Face 的 AQUA-RAT 数据集查询查询查询 6 2

405B Llama 先决条件生成问题 SageMaker 进行优化 70B 3.1 JumpStart 模型使用查询 Bedrock 微调 8B 文本 Amazon