详细内容或原文请订阅后点击阅览
使用 DPO、Amazon SageMaker Studio 和 Amazon SageMaker Ground Truth 将 Meta Llama 3 与人类偏好保持一致
在本文中,我们将向您展示如何通过使用直接偏好优化 (DPO) 对使用 SageMaker Ground Truth 收集的数据进行微调来提高 Meta Llama 3 8B Instruct 的性能。
来源:亚马逊云科技 _机器学习大语言模型(LLMS)具有出色的功能。但是,在面向客户的应用程序中使用它们通常需要量身定制其响应以与组织的价值观和品牌标识保持一致。在这篇文章中,我们演示了如何使用直接偏好优化(DPO),该技术使您可以将LLM与人类偏好数据进行微调,并与Amazon Sagemaker Studio和Amazon Sagemaker Ground Trund一起使用,以使Meta Llama 3 8B指示模型响应对组织的价值。
直接偏好优化(DPO) Amazon Sagemaker Studio Amazon Sagemaker地面真相 Meta Llama 3 8b指示 使用SageMaker Studio和DPO的SageMaker地面真相 使用DPO,您可以用人类偏好数据(例如评级或排名)微调LLM,以便它生成与最终用户期望保持一致的输出。 DPO在计算上是有效的,并有助于增强模型的有益,诚实和无害性,使LLM转移到解决特定主题并减轻偏见的情况下。在此技术中,您通常从选择现有或培训新的监督微调(SFT)模型开始。您使用该模型来产生响应,并收集有关这些响应的人类反馈。之后,您使用此反馈来执行DPO微调并将模型与人类偏好保持一致。 无论您是用监督的微调(SFT)微调预训练的LLM还是为DPO加载现有的微调模型,通常都需要强大的GPU。在DPO微调过程中也适用。借助Amazon Sagemaker,您可以使用配备GPU实例的托管Jupyter笔记本快速开始并迅速进行实验。您可以通过在SageMaker Studio(用于机器学习的集成开发环境(IDE)专用环境(ML)中创建Jupyterlab空间(ML),启动在GPU实例上运行的Jupyterlab应用程序,快速开始使用Jupyterlab空间。 jupyterlab空间 bitsandbytes dpotrainer 拥抱面TRL库 解决方案概述 先决条件 LoraMeta Llama 3 8b指示
使用SageMaker Studio和DPO的SageMaker地面真相
使用DPO,您可以用人类偏好数据(例如评级或排名)微调LLM,以便它生成与最终用户期望保持一致的输出。 DPO在计算上是有效的,并有助于增强模型的有益,诚实和无害性,使LLM转移到解决特定主题并减轻偏见的情况下。在此技术中,您通常从选择现有或培训新的监督微调(SFT)模型开始。您使用该模型来产生响应,并收集有关这些响应的人类反馈。之后,您使用此反馈来执行DPO微调并将模型与人类偏好保持一致。
无论您是用监督的微调(SFT)微调预训练的LLM还是为DPO加载现有的微调模型,通常都需要强大的GPU。在DPO微调过程中也适用。借助Amazon Sagemaker,您可以使用配备GPU实例的托管Jupyter笔记本快速开始并迅速进行实验。您可以通过在SageMaker Studio(用于机器学习的集成开发环境(IDE)专用环境(ML)中创建Jupyterlab空间(ML),启动在GPU实例上运行的Jupyterlab应用程序,快速开始使用Jupyterlab空间。 jupyterlab空间 bitsandbytes dpotrainer