硬约束关键词检索结果

COMPASS:工具介导的规划和偏好优化的多轮基准

COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization

现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……