详细内容或原文请订阅后点击阅览
RVPO:通过方差正则化进行风险敏感调整
当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励,使它们容易受到约束忽略:一个目标的巨大成功可以在数字上抵消其他目标的关键失败(例如安全或格式),掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化(RVPO),这是一种风险敏感的框架,在优势聚合过程中惩罚奖励间的方差,将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式展示......
来源:Apple机器学习研究当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励,使它们容易受到约束忽略:一个目标的巨大成功可以在数字上抵消其他目标的关键失败(例如安全或格式),掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化(RVPO),这是一种风险敏感的框架,在优势聚合过程中惩罚奖励间的方差,将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式证明 LogSumExp (SoftMin) 运算符有效地充当平滑方差罚分。我们评估了基于标题的医学和科学推理以及多达 17 个并发 LLM 判断的奖励信号 (Qwen2.5-3B/7B/14B) 以及基于规则约束的工具调用 (Qwen2.5-1.5B/3B) 的 RVPO。通过防止模型忽略困难的约束来利用更容易的目标,RVPO 提高了 HealthBench 上的总体得分(14B 时 GDPO 为 0.261 对比 0.215,p < 0.001),并在 GPQA-Diamond 上保持有竞争力的准确性,而没有在其他多奖励方法中观察到的后期退化,这表明方差正则化可以减轻跨模型规模的约束忽略,而不会牺牲一般功能。
