详细内容或原文请订阅后点击阅览
通过预测用户编写样本的偏好来对齐LLM
适应人类的偏好对于创建提供个性化和有效互动的一致性LLM代理至关重要。最近的工作表明,LLM充当写作代理来推断用户偏好的描述。然后,代理对齐来自根据推论的偏好描述的条件。但是,现有方法通常会产生通用的偏好描述,而这些描述无法捕获人类偏好的独特性和个性化的性质。本文介绍了散文,这种方法旨在增强用户推论的偏好描述的精度…
来源:Apple机器学习研究适应人类的偏好对于创建提供个性化和有效互动的一致性LLM代理至关重要。最近的工作表明,LLM充当写作代理来推断用户偏好的描述。然后,代理对齐来自根据推论的偏好描述的条件。但是,现有方法通常会产生通用的偏好描述,而这些描述无法捕获人类偏好的独特性和个性化的性质。本文介绍了散文,这种方法旨在增强用户编写样本推断出的偏好描述的精度。散文结合了两个关键要素:(1)推断偏好的迭代细化,以及(2)在多个用户编写样本中验证推断偏好的验证。我们通过摘要和电子邮件写作任务评估了几个LLM(即Qwen2.5 7b和72b指示,GPT-Mini和GPT-4O)的散文。我们发现,散文更准确地渗透了细微的人类偏好,从而提高了写作代理人几代人比密码(一种推断偏好的最新方法)的质量,提高了33%。最后,我们证明了ICL和散文是互补的方法,并且将它们的结合起来可比仅ICL提高9%。
- •在Apple†科罗拉多大学的苹果公司完成工作