COMPASS:工具介导的规划和偏好优化的多轮基准

现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……

来源:Apple机器学习研究

现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个涵盖美国 20 个国家公园的交通、住宿和票务的真实旅行数据库,以及反映商业预订平台的综合工具生态系统。通过评估最先进的模型,我们发现了两个关键差距:(i)可接受的最佳差距,即代理可靠地满足约束但无法优化偏好;(ii)计划协调差距,即多服务(航班和酒店)协调任务的性能崩溃,特别是对于开源模型。通过在面向用户的实际领域中进行推理和规划,COMPASS 提供了一个基准,可以直接衡量智能体在实际任务中优化用户偏好的能力,从而将理论进步与现实世界的影响联系起来。

  • † 哈佛大学
  • ‡ 弗吉尼亚理工大学
  • § 伊利诺伊大学厄巴纳-香槟分校
  • ¶ 加州大学伯克利分校
  • ** 在 Apple 期间完成的工作