从人类反馈(RLHF)中学习的强化学习是增强学习(RL)的变体,它从人类的反馈中学习而不是依靠工程奖励功能。在基于偏好的增强学习(PBRL)相关设置的先前工作基础上,它位于人工智能和人类计算机交互的交汇处。这种定位是一种有希望的途径,以增强智能系统的性能和适应性,同时还提高了其目标与人类价值观的一致性。大型语言模型(LLM)的培训近年来已经表现出了令人印象深刻的这种潜力,在该培训中,RLHF在将模型的能力指向人类目标方面发挥了决定性的作用。本文提供了RLHF基础知识的全面概述,探讨了RL代理与人类输入之间的复杂动态。最近的重点是LLM的RLHF,但我们的调查采用了更广泛的观察,研究了该技术的各种应用和广泛的影响。我们深入研究了基于RLHF的核心原则,阐明了算法和人类反馈之间的共生关系,并讨论了该领域的主要研究趋势。通过综合RLHF研究的当前景观,本文旨在为研究人员和从业人员提供对这一快速增长的研究领域的全面了解。
从人类馈回(RLHF)中学习的强化学习是一种将大语模型与人类价值保持一致的广泛采用的方法。但是,RLHF依赖于经过有限数量的人类偏好数据训练的奖励模型,这可能导致预测不准确。结果,RLHF可能会产生与人类价值观未对准的输出。为了减轻此问题,我们为奖励合奏方法提供了奖励模型,可以做出更准确的谓词。使用基于大语模型的大型奖励模型可以是计算和资源廉价的,我们探索了效率的合奏方法,包括线性层集合和基于洛拉的合奏。经验上,我们通过结合奖励模式运行最佳n和近端政策优化,并验证我们的集合方法有助于提高RLHF输出的对齐性能。
定义奖励功能通常是系统设计师在增强学习中的一项具有挑战性但至关重要的任务,尤其是在指定复杂行为时。从人类反馈(RLHF)中学习的强化是一种承诺的方法来规避这一点。在RLHF中,代理通常通过使用轨迹段的成对比较来查询人类老师来学习奖励功能。这个领域中的一个关键问题是如何减少需要学习内容丰富的奖励功能的查询数量,因为要求人类老师太多的查询是不切实际且昂贵的。为了解决这个问题,大多数现有的方法主要集中于改进探索,引入数据增强或为RLHF设计复杂的培训目标,而查询生成和选择方案的潜力尚未得到充分利用。在本文中,我们提出了二人组,这是一种新颖的方法,用于RLHF中的多种,不确定的,上的查询生成和选择。我们的方法会产生(1)与政策培训更相关的查询(通过政策标准),(2)更有用的信息(通过认知不确定性的原则衡量)和(3)多样化(通过基于聚类的过滤器)。对各种运动和机器人操纵任务的实验结果表明,我们的方法可以超越最先进的RLHF方法,并给出相同的查询预算,同时对可能的非理性教师有力。
我们创新了一个可编辑的llm,可以像人类的反思过程一样,可以不断地实时反映和修改生成的内容。更确切地说,我们根据传统的生成大型模型添加了检查机制,该模型实现了添加,删除,纠正和检查生成的文本的操作。在模拟修改完成后,文本质量分数提供的监督信号就像从人类反馈(RLHF)学习一样。然而,与传统的RLHF研究不同,我们的重点不是从多个输出中选择最佳,而是指导LLM逐步改善大草稿,逐步改善高质量的输出,这更像是人类反思的过程,而更多地符合加强学习的过程。更具体地说,我们不是手动注释,而是在粗制模型上生成草稿,但是指导更改模型的更改。我们的方法在真实数据上取得了很好的结果,该数据发现了LLM研究的新研究方向,尤其是在RLHF领域。
检索增强的生成(RAG)是一种证明大语言模型(LLMS)的准确性和可靠性的方法,以进行开放域问答(ODQA)。传统的AP-PARACHES依赖于监督学习,这可能导致误导用户意图和系统输出。从人类反馈中学习(RLHF)通过使用人类偏好反馈训练奖励模型来解决此问题。在这项工作中,我们介绍了一个新颖的RLHF框架,用于ODQA,利用现有的大规模答案重新计算数据集用于培训重新模型。特别是,我们对ODQA的奖励模型扮演两个互补的角色:(i)将排名分数作为PPO的重新分配,以及(ii)检索相关事实,使ODQA系统能够提出事实答案。实验性媒介表明我们提出的框架对RLHF有效,从而导致ODQA的近乎专家性能。索引术语:检索效果的一代,加强学习,人类反馈,回答reranking
本文通过人类和AI的反馈对进步的增强学习(RL)进行了全面审查,重点是可解释的强化学习(XRL)的新兴子领域。它研究了解释性技术如何在顺序决策设置中提高RL代理决策过程的透明度,从而使从业者能够更好地理解和信任代理人的行为。该评论还探讨了从人类反馈(RLHF)学习增强性挑战的挑战,并从AI反馈(RLAIF)中引入了强化学习,这是一个有希望的选择。通过利用现成的大语言模型(LLMS)生成偏好标签,RLAIF解决了手动人类反馈的时间耗时和昂贵的性质,同时取得了可比或优越的结果。该论文进一步讨论了RLHF和RLAIF的开放问题和基本局限性,强调了对改善其实际实施的强大方法的需求。结束时,概述了旨在完善和补充RLHF和RLAIF的未来研究指示,以增强其在现实世界应用中的有效性和社会影响。
将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。
强化学习(RL)是一种广泛采用的LLM训练后培训方法,用于增强对齐和推理能力。本演讲将介绍我们在设计有效的RL算法和培训LLM的系统方面的最新进展。在算法方面,我们将首先讨论流行的RLHF方法(即DPO和PPO)之间的优缺点,并表明正确配置的PPO培训可以基本上改善有关挑战竞争性编码基准的LLM表现。然后,我们将讨论一些LLM奖励设计的常见陷阱,这些陷阱很容易导致LLM RL培训中不希望的失败。我们建议可以稳定RL培训并提高LLM数学推理功能的简单技巧。在系统方面,我们将介绍分布式的RLHF培训系统RealHF,该系统是所有算法作品的系统基础。RealHF专门研究LLM RL培训,与其他开源RLHF系统相比,可以实现超过10倍的速度。可以在此处找到相关论文:https://arxiv.org/pdf/2404.10719,https://arxiv.org/pdf/2410.15115,https://arxiv.org.org.org/pdf/pdf/2406。14088。
从人类反馈(RLHF)中学习的强化已成为将LLM输出与人类偏好相结合的主要方法。受RLHF成功的启发,我们研究了多种算法的性能,这些算法从反馈(专家迭代,近端策略优化(PPO),返回条件的RL)中学习,以提高LLM推理能力。我们通过学习的奖励模型调查了向LLM提供给LLM的稀疏和密集奖励。我们还从有或没有监督微调(SFT)数据的多个模型大小和初始化开始。总的来说,我们发现所有算法的性能都相当,在大多数情况下,专家迭代的表现最佳。令人惊讶的是,我们发现专家迭代的样本复杂性与PPO的样本复杂性相似,最多要求10 6个样本的顺序从预验证的检查点收敛。我们调查了为什么是这种情况,得出的结论是,在RL培训模型期间,无法探索超出SFT模型已经产生的解决方案。此外,我们在SFT培训期间讨论了Maj@1与96指标性能之间的权衡,以及RL训练如何同时改善这两种情况。然后,我们通过讨论我们的发现对RLHF的含义以及RL在LLM微调中的未来作用来得出结论。
从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。