通过加强人工或AI反馈学习的微调模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

通过加强人工或AI反馈学习的微调模型

2025年4月4日 14:42 33 Comments

在这篇文章中，我们引入了一种最先进的方法来通过增强学习来微调LLM，审查了RLHF与RLAIF与DPO的利弊，并看到了如何与RLAIF进行LLM微调工作。我们还看到了如何使用拥抱面式变压器和TRL库对萨吉式制造商实施端到端的RLAIF管道，以及使用现成的毒性奖励模型在PPO期间与对齐响应，或直接提示LLM在PPO期间产生定量奖励反馈。

来源:亚马逊云科技 _机器学习

大型语言模型（LLMS）可用于执行自然语言处理（NLP）任务，从简单的对话和信息检索任务到更复杂的推理任务，例如汇总和决策。使用说明所需任务的说明和示例的及时工程和监督微调可以使LLMS更好地遵循人类意图，特别是对于特定的用例。但是，这些方法通常会导致LLM表达意外行为，例如构成事实（幻觉），产生偏见或有毒文本，或者根本不遵循用户说明。这导致了不真实，有毒或根本对用户无济于事的响应。换句话说，这些模型与用户不符。Supervised学习可以通过使用证明一些所需行为的示例来帮助调整LLM，这称为监督微调（SFT）。但是，即使采样的演示集代表了某些任务，它通常仍然不足以教导LLM更微妙的需求，例如道德，社会和心理需求，这些需求是必不可少的，但相对抽象，因此并不容易证明。因此，SFT通常会导致许多意外的行为，例如构成事实或产生有偏见甚至有毒内容。然后，该奖励模型可以用于微调LLM的参数，而LLM探索候选响应，直到其行为与人类的偏好和价值观保持一致为止。该方法称为从人类反馈中学习的强化学习（Ouyang等，2022）。下图说明了与AI反馈（RLAIF）学习相比，从人类反馈（RLHF）中学习的强化学习（RLAIF）。（2023）表明，使用Direct LLM反馈Ins

意外的 SFT 学习的信息检索 LLMS RLAIF LLM 反馈用户简单的人类复杂的例如使用特定的任务行为示例微调说明价值观学习

通过加强人工或AI反馈学习的微调模型

其他外部链接

Tags

XiaoMi-AI