多目标领域信息情报检索---XiaoMi-AI

2026年5月8日 00:00

RVPO：通过方差正则化进行风险敏感调整

RVPO: Risk-Sensitive Alignment via Variance Regularization

当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励，使它们容易受到约束忽略：一个目标的巨大成功可以在数字上抵消其他目标的关键失败（例如安全或格式），掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化（RVPO），这是一种风险敏感的框架，在优势聚合过程中惩罚奖励间的方差，将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式展示......

计算智能

2026年4月6日 06:30

IEEE 进化计算汇刊，第 30 卷，第 2 期，2025 年 4 月

IEEE Transactions on Evolutionary Computation, Volume 30, Issue 2, April 2025

1) Efficient Meta-Heuristic Approach for the Multiobjective Green p-Hub Center Routing Problem作者：E. M. Ibnoulouafi, T. Aouam, M. Oudani, M. GhoghoPages: 449 - 4632) A Multi-Fidelity Genetic Algorithm for Hyperparameter Optimization of Deep Neural Networks作者：A. R. Moya, S. Ventura 页数: 464 - 4783) 通过分

多目标关键词检索结果

RVPO：通过方差正则化进行风险敏感调整

IEEE 进化计算汇刊，第 30 卷，第 2 期，2025 年 4 月