详细内容或原文请订阅后点击阅览
COMPASS:工具介导的规划和偏好优化的多轮基准
现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……
来源:Apple机器学习研究现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个涵盖美国 20 个国家公园的交通、住宿和票务的真实旅行数据库,以及反映商业预订平台的综合工具生态系统。通过评估最先进的模型,我们发现了两个关键差距:(i)可接受的最佳差距,即代理可靠地满足约束但无法优化偏好;(ii)计划协调差距,即多服务(航班和酒店)协调任务的性能崩溃,特别是对于开源模型。通过在面向用户的实际领域中进行推理和规划,COMPASS 提供了一个基准,可以直接衡量智能体在实际任务中优化用户偏好的能力,从而将理论进步与现实世界的影响联系起来。
