从人类反馈(RLHF)中学习的强化学习是增强学习(RL)的变体,它从人类的反馈中学习而不是依靠工程奖励功能。在基于偏好的增强学习(PBRL)相关设置的先前工作基础上,它位于人工智能和人类计算机交互的交汇处。这种定位是一种有希望的途径,以增强智能系统的性能和适应性,同时还提高了其目标与人类价值观的一致性。大型语言模型(LLM)的培训近年来已经表现出了令人印象深刻的这种潜力,在该培训中,RLHF在将模型的能力指向人类目标方面发挥了决定性的作用。本文提供了RLHF基础知识的全面概述,探讨了RL代理与人类输入之间的复杂动态。最近的重点是LLM的RLHF,但我们的调查采用了更广泛的观察,研究了该技术的各种应用和广泛的影响。我们深入研究了基于RLHF的核心原则,阐明了算法和人类反馈之间的共生关系,并讨论了该领域的主要研究趋势。通过综合RLHF研究的当前景观,本文旨在为研究人员和从业人员提供对这一快速增长的研究领域的全面了解。
主要关键词