Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
从人类反馈(RLHF)中学习的抽象强化学习已被证明有效地使大型语言模型(LLMS)与人类的偏好保持一致,但是收集高质量的偏好标签是可以表达的。rl来自AI反馈(RLAIF),在Bai等人中引入。(2022b),提供了一种有希望的替代方案,该替代方案对现成的LLM产生的偏好训练奖励模型(RM)。在摘要的任务,有用的直径生成和无害的对话构成的任务中,我们表明RLAIF的性能与RLHF相当。此外,我们通过证明RLAIF的表现可以超越受监督的细节基线,即使AI标签的大小与策略相同,甚至与初始策略完全相同的检查点,我们也可以迈出“自我完善”的一步。最后,我们引入了直接raif(D-RLAIF) - 一种通过直接从RL持续的LLM获得奖励来绕过RM训练的技术,该技术在RL期间获得了较高的性能,从而达到了Canoni-cal rlaif。我们的结果表明,RLAIF可以通过使用人类反馈来实现PAR的性能,从而为RLHF的尺度限制提供了潜在的解决方案。
本文通过人类和AI的反馈对进步的增强学习(RL)进行了全面审查,重点是可解释的强化学习(XRL)的新兴子领域。它研究了解释性技术如何在顺序决策设置中提高RL代理决策过程的透明度,从而使从业者能够更好地理解和信任代理人的行为。该评论还探讨了从人类反馈(RLHF)学习增强性挑战的挑战,并从AI反馈(RLAIF)中引入了强化学习,这是一个有希望的选择。通过利用现成的大语言模型(LLMS)生成偏好标签,RLAIF解决了手动人类反馈的时间耗时和昂贵的性质,同时取得了可比或优越的结果。该论文进一步讨论了RLHF和RLAIF的开放问题和基本局限性,强调了对改善其实际实施的强大方法的需求。结束时,概述了旨在完善和补充RLHF和RLAIF的未来研究指示,以增强其在现实世界应用中的有效性和社会影响。