grpo领域信息情报检索---XiaoMi-AI

2026年4月2日 00:00

异质偏好调整的个性化组相对策略优化

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

尽管大型语言模型 (LLM) 具有复杂的通用功能，但它通常无法满足不同的个人偏好，因为标准的训练后方法（例如带有人类反馈的强化学习 (RLHF)）会针对单一的全局目标进行优化。虽然组相对策略优化（GRPO）是一种广泛采用的同策略强化学习框架，但其基于组的归一化隐式假设所有样本都是可交换的，从而在个性化设置中继承了这一限制。这个假设将不同的用户奖励分布和......

grpo关键词检索结果

异质偏好调整的个性化组相对策略优化