COMPASS：工具介导的规划和偏好优化的多轮基准 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

COMPASS：工具介导的规划和偏好优化的多轮基准

2025年12月11日 00:00 33 Comments

来源:Apple机器学习研究

现实世界的大语言模型（LLM）代理必须通过多轮交互掌握策略工具的使用和用户偏好优化，以协助用户完成复杂的规划任务。我们引入了 COMPASS（通过多轮规划和战略解决方案进行约束优化），这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题，其中代理必须满足硬约束，同时优化软用户偏好。为了支持这一点，我们建立了一个涵盖美国 20 个国家公园的交通、住宿和票务的真实旅行数据库，以及反映商业预订平台的综合工具生态系统。通过评估最先进的模型，我们发现了两个关键差距：（i）可接受的最佳差距，即代理可靠地满足约束但无法优化偏好；（ii）计划协调差距，即多服务（航班和酒店）协调任务的性能崩溃，特别是对于开源模型。通过在面向用户的实际领域中进行推理和规划，COMPASS 提供了一个基准，可以直接衡量智能体在实际任务中优化用户偏好的能力，从而将理论进步与现实世界的影响联系起来。

† 哈佛大学

‡ 弗吉尼亚理工大学

§ 伊利诺伊大学厄巴纳-香槟分校

¶ 加州大学伯克利分校

** 在 Apple 期间完成的工作

国家公园任务接受的复杂的偏好世界的现实受约束的 COMPASS 旅行美国规划先进的实际完成的代理模型多轮工具的代理商用户行数据硬约束受约束数据库差距可接受的优化根据生态系统

COMPASS：工具介导的规划和偏好优化的多轮基准

其他外部链接

Tags

XiaoMi-AI