隐式关键词检索结果

从隐式到显式:架构和成功标准指南

From Implicit to Explicit: A Guide to Schema and Success Criteria

从隐式到显式:模式和成功标准 教师通常确切地知道他们希望学生学习什么。问题是学生并不总是能看到地图。他们可能听到任务、开始工作,但仍然错过最重要的事情。这种差距存在于每个年级和科目中。一名学生写了一个 [...]

异质偏好调整的个性化组相对策略优化

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

尽管大型语言模型 (LLM) 具有复杂的通用功能,但它通常无法满足不同的个人偏好,因为标准的训练后方法(例如带有人类反馈的强化学习 (RLHF))会针对单一的全局目标进行优化。虽然组相对策略优化(GRPO)是一种广泛采用的同策略强化学习框架,但其基于组的归一化隐式假设所有样本都是可交换的,从而在个性化设置中继承了这一限制。这个假设将不同的用户奖励分布和......