摘要 - 基于偏好的增强学习(PBRL)可以使机器人能够根据个人的喜好学习执行任务,而无需手工制作的重新功能。但是,现有方法要么假设访问高保真模拟器或分析模型,要么采用需要广泛的,可能是不安全在线环境互动的模型方法。在本文中,我们研究执行PBRL时使用学习动力学模型的好处和挑战。,我们提供的证据表明,在执行PBRL时,学到的动态模型提供了以下好处:(1)比无模型的PBRL相比,偏好启发和政策优化需要明显少于环境的互动,(2)可以在没有基于标准模型的RL和(3)奖励的范围内,无需逐步征服(2)各种偏好查询即可综合使用。 相互作用。我们的论文提供了经验证明,学到的动态模型使机器人能够以用户偏好的方式来学习自定义的策略,这些方式比先前的偏好学习方法更安全,更有效。补充材料和代码可在https://sites.google.com/berkeley.edu/mop-rl上找到。
从人类反馈(RLHF)中学习的强化学习是增强学习(RL)的变体,它从人类的反馈中学习而不是依靠工程奖励功能。在基于偏好的增强学习(PBRL)相关设置的先前工作基础上,它位于人工智能和人类计算机交互的交汇处。这种定位是一种有希望的途径,以增强智能系统的性能和适应性,同时还提高了其目标与人类价值观的一致性。大型语言模型(LLM)的培训近年来已经表现出了令人印象深刻的这种潜力,在该培训中,RLHF在将模型的能力指向人类目标方面发挥了决定性的作用。本文提供了RLHF基础知识的全面概述,探讨了RL代理与人类输入之间的复杂动态。最近的重点是LLM的RLHF,但我们的调查采用了更广泛的观察,研究了该技术的各种应用和广泛的影响。我们深入研究了基于RLHF的核心原则,阐明了算法和人类反馈之间的共生关系,并讨论了该领域的主要研究趋势。通过综合RLHF研究的当前景观,本文旨在为研究人员和从业人员提供对这一快速增长的研究领域的全面了解。