COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization
现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……
Over-Searching in Search-Augmented Large Language Models
搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性
BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,最大化关于任务的预期信息增益 (EIG)