RVPO关键词检索结果

RVPO:通过方差正则化进行风险敏感调整

RVPO: Risk-Sensitive Alignment via Variance Regularization

当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励,使它们容易受到约束忽略:一个目标的巨大成功可以在数字上抵消其他目标的关键失败(例如安全或格式),掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化(RVPO),这是一种风险敏感的框架,在优势聚合过程中惩罚奖励间的方差,将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式展示......