最初开发用于连续控制问题的近端政策选择(PPO)已成为各种强化学习(RL)应用程序(包括生成模型的微调)的工作马。不幸的是,PPO需要多种启发式学才能实现稳定的收敛(例如价值网络,剪辑),并以其对这些组件的精确实现的敏感性而臭名昭著。回应,我们退后一步,问生成模型时代的简约RL算法是什么样的。我们提出了Rebel,这是一种算法,可简洁地减少策略优化问题,以通过两个完成之间的直接策略参数化回归相对奖励,从而使得轻量轻量级实现。从理论上讲,我们证明了像自然政策梯度这样的基本RL算法可以看作是叛军的变体,这使我们能够在RL文献中的收敛性和样本复杂性方面与最强的已知理论保证相匹配。Rebel还可以清洁地合并离线数据,并处理我们在实践中经常看到的不及物线偏好。从经验上讲,我们发现Rebel提供了一种统一的方法,用于与PPO和DPO具有更强或类似性能的语言建模和图像生成,同时比PPO更易于实现,并且在计算上更可行。
主要关键词