详细内容或原文请订阅后点击阅览
PREDICT:通过评估从候选轨迹推断的分解偏好进行偏好推理
适应人类偏好对于创建可提供个性化且有效交互的 AI 代理至关重要。最近的研究表明,法学硕士有可能从用户交互中推断偏好,但它们通常会产生广泛且通用的偏好,无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT,一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素:(1) 推断偏好的迭代细化,(2) 将偏好分解为……
来源:Apple机器学习研究适应人类偏好对于创建可提供个性化且有效交互的 AI 代理至关重要。最近的研究表明,法学硕士有可能从用户交互中推断偏好,但它们通常会产生广泛且通用的偏好,无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT,一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素:(1) 推断偏好的迭代细化,(2) 将偏好分解为组成部分,以及 (3) 跨多个轨迹验证偏好。我们在两个不同的环境上评估 PREDICT:网格世界设置和新的文本域环境 (PLUME)。 PREDICT 更准确地推断出人类偏好的细微差别,较现有基线提高了 66.2%(gridworld 环境)和 41.0%(PLUME)。
- † 科罗拉多大学博尔德分校** 在 Apple 期间完成的工作
