通过加强人工或AI反馈学习的微调模型

在这篇文章中,我们引入了一种最先进的方法来通过增强学习来微调LLM,审查了RLHF与RLAIF与DPO的利弊,并看到了如何与RLAIF进行LLM微调工作。我们还看到了如何使用拥抱面式变压器和TRL库对萨吉式制造商实施端到端的RLAIF管道,以及使用现成的毒性奖励模型在PPO期间与对齐响应,或直接提示LLM在PPO期间产生定量奖励反馈。

来源:亚马逊云科技 _机器学习
大型语言模型(LLMS)可用于执行自然语言处理(NLP)任务,从简单的对话和信息检索任务到更复杂的推理任务,例如汇总和决策。使用说明所需任务的说明和示例的及时工程和监督微调可以使LLMS更好地遵循人类意图,特别是对于特定的用例。但是,这些方法通常会导致LLM表达意外行为,例如构成事实(幻觉),产生偏见或有毒文本,或者根本不遵循用户说明。这导致了不真实,有毒或根本对用户无济于事的响应。换句话说,这些模型与用户不符。Supervised学习可以通过使用证明一些所需行为的示例来帮助调整LLM,这称为监督微调(SFT)。但是,即使采样的演示集代表了某些任务,它通常仍然不足以教导LLM更微妙的需求,例如道德,社会和心理需求,这些需求是必不可少的,但相对抽象,因此并不容易证明。因此,SFT通常会导致许多意外的行为,例如构成事实或产生有偏见甚至有毒内容。然后,该奖励模型可以用于微调LLM的参数,而LLM探索候选响应,直到其行为与人类的偏好和价值观保持一致为止。该方法称为从人类反馈中学习的强化学习(Ouyang等,2022)。下图说明了与AI反馈(RLAIF)学习相比,从人类反馈(RLHF)中学习的强化学习(RLAIF)。 (2023)表明,使用Direct LLM反馈Ins