异质偏好调整的个性化组相对策略优化

尽管大型语言模型 (LLM) 具有复杂的通用功能,但它通常无法满足不同的个人偏好,因为标准的训练后方法(例如带有人类反馈的强化学习 (RLHF))会针对单一的全局目标进行优化。虽然组相对策略优化(GRPO)是一种广泛采用的同策略强化学习框架,但其基于组的归一化隐式假设所有样本都是可交换的,从而在个性化设置中继承了这一限制。这个假设将不同的用户奖励分布和......

来源:Apple机器学习研究

尽管大型语言模型 (LLM) 具有复杂的通用功能,但它通常无法满足不同的个人偏好,因为标准的训练后方法(例如带有人类反馈的强化学习 (RLHF))会针对单一的全局目标进行优化。虽然组相对策略优化(GRPO)是一种广泛采用的同策略强化学习框架,但其基于组的归一化隐式假设所有样本都是可交换的,从而在个性化设置中继承了这一限制。这种假设将不同的用户奖励分布混为一谈,并系统地使学习偏向主导偏好,同时抑制少数信号。为了解决这个问题,我们引入了个性化 GRPO (P-GRPO),这是一种新颖的对齐框架,可将优势估计与即时批量统计数据解耦。通过针对特定偏好组的奖励历史而不是同时生成组的优势进行标准化,P-GRPO 保留了学习不同偏好所需的对比信号。我们在不同的任务中评估 P-GRPO,发现它始终比标准 GRPO 实现更快的收敛和更高的奖励,从而增强其恢复和与异构偏好信号保持一致的能力。我们的结果表明,在优化级别考虑奖励异质性对于构建忠实地符合不同人类偏好而不牺牲一般能力的模型至关重要。