RVPO：通过方差正则化进行风险敏感调整 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

RVPO：通过方差正则化进行风险敏感调整

2026年5月8日 00:00 33 Comments

来源:Apple机器学习研究

当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励，使它们容易受到约束忽略：一个目标的巨大成功可以在数字上抵消其他目标的关键失败（例如安全或格式），掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化（RVPO），这是一种风险敏感的框架，在优势聚合过程中惩罚奖励间的方差，将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式证明 LogSumExp (SoftMin) 运算符有效地充当平滑方差罚分。我们评估了基于标题的医学和科学推理以及多达 17 个并发 LLM 判断的奖励信号 (Qwen2.5-3B/7B/14B) 以及基于规则约束的工具调用 (Qwen2.5-1.5B/3B) 的 RVPO。通过防止模型忽略困难的约束来利用更容易的目标，RVPO 提高了 HealthBench 上的总体得分（14B 时 GDPO 为 0.261 对比 0.215，p < 0.001），并在 GPQA-Diamond 上保持有竞争力的准确性，而没有在其他多奖励方法中观察到的后期退化，这表明方差正则化可以减轻跨模型规模的约束忽略，而不会牺牲一般功能。

可靠的目标容易的提高模型例如奖励一致性敏感的聚合方差 14B 平均值关键 3B 抵消失败重要的观察到的多目标最大化运算符 RVPO 目标的 Qwen2.5 展开式约束准确性困难的算术平均竞争力忽略

RVPO：通过方差正则化进行风险敏感调整

其他外部链接

Tags

XiaoMi-AI