RLHF领域信息情报检索---XiaoMi-AI

2026年4月2日 00:00

异质偏好调整的个性化组相对策略优化

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

尽管大型语言模型 (LLM) 具有复杂的通用功能，但它通常无法满足不同的个人偏好，因为标准的训练后方法（例如带有人类反馈的强化学习 (RLHF)）会针对单一的全局目标进行优化。虽然组相对策略优化（GRPO）是一种广泛采用的同策略强化学习框架，但其基于组的归一化隐式假设所有样本都是可交换的，从而在个性化设置中继承了这一限制。这个假设将不同的用户奖励分布和......

人工智能+

2025年7月7日 19:06

LLM 培训转变推动 AI 飞跃

LLM Training Shift Powers AI Leap

为什么重要：法学硕士培训转变为 AI Leap 探索了 RLHF 和指令调整等新培训方法如何促进人工智能。

RLHF关键词检索结果

异质偏好调整的个性化组相对策略优化

LLM 培训转变推动 AI 飞跃