Loading...
机构名称:
¥ 3.0

从人类反馈中学习(RLHF)已成为使大语言模型(LLM)与人类偏好保持一致的标准方法,从而使LLM可以在各种任务中表现出显着的能力。现有方法通过在单个决策(转弯)级别上模拟偏好,限制其在需要计划或多转交互以实现长期目标的设置中的功能。在本文中,我们通过开发新的增强学习方法(RL)来解决这个问题,从两次完整的多转交谈之间的偏好反馈中。在表格设置中,我们为一般多转变的基于多转变的RL问题提供了一种新型的基于镜下降的策略优化算法,并证明了其与NASH平衡的收敛。为了评估绩效,我们创建了一个新的环境,教育对话,教师代理人指导学生学习一个随机主题,并证明我们算法的深度RL变体优于RLHF Baselines。最后,我们表明,在具有明确奖励的环境中,我们的算法恢复了与基于奖励的RL基线相同的性能,尽管仅依靠较弱的偏好信号。

从偏好中学习的多转弯强化学习人类反馈

从偏好中学习的多转弯强化学习人类反馈PDF文件第1页

从偏好中学习的多转弯强化学习人类反馈PDF文件第2页

从偏好中学习的多转弯强化学习人类反馈PDF文件第3页

从偏好中学习的多转弯强化学习人类反馈PDF文件第4页

从偏好中学习的多转弯强化学习人类反馈PDF文件第5页

相关文件推荐

2024 年
¥2.0
1900 年
¥3.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥5.0
2024 年
¥1.0
2024 年
¥1.0
1999 年
¥4.0
2024 年
¥6.0
2024 年
¥2.0