Loading...
机构名称:
¥ 4.0

最初开发用于连续的控制问题,近端政策操作(PPO)已成为各种强化学习(RL)应用程序的工作马,包括生成模型的微调。不幸的是,PPO需要多种启发式术才能实现稳定的收敛性(例如价值网络,剪辑),并以其对这些组件的精确影响的敏感性而臭名昭著。作为回应,我们退后一步,问生成模型时代的简约RL算法是什么样的。我们提出了Rebel,这是一种算法,可简单地减少策略优化问题,以在政策方面将两个完成之间的相对奖励回归到提示中,从而实现了引人注目的轻量级实施。从理论上讲,我们证明了像自然政策梯度这样的基本RL算法可以看作是叛军的变体,这使我们能够在RL文献中的收敛性和样本复杂性方面与最强的已知理论保证相匹配。Rebel还可以清晰地合并离线数据,并扩展以处理我们在实践中经常看到的不及物优先偏好。从经验上讲,我们发现Rebel提供了一种统一的方法,用于具有与PPO和DPO更强或类似性能的语言建模和图像生成,同时比PPO更易于实现,并且在计算上更有效。当微调Llama-3-8B - 教堂时,Rebel在Alpacaeval 2.0,MT-Bench和Open LLM排行榜中取得了出色的表现。可以在https://github.com/zhaolingao/rebel上找到叛军的实施,可以在https://huggingface.co/cornell-agi上找到由Rebel培训的模型。

通过回归相对奖励

通过回归相对奖励PDF文件第1页

通过回归相对奖励PDF文件第2页

通过回归相对奖励PDF文件第3页

通过回归相对奖励PDF文件第4页

通过回归相对奖励PDF文件第5页

相关文件推荐

2022 年
¥1.0
1900 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2023 年
¥5.0
2024 年
¥2.0
1900 年
¥1.0
2025 年
¥1.0
2023 年
¥6.0
1900 年
¥1.0
2023 年
¥2.0
2025 年
¥1.0
2025 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2022 年
¥2.0
2022 年
¥1.0
2023 年
¥1.0
2024 年
¥3.0
2023 年
¥1.0
2023 年
¥1.0