搜索增强大型语言模型中的过度搜索

搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性

来源:Apple机器学习研究

搜索增强型大型语言模型 (LLM) 通过集成外部检索,擅长执行知识密集型任务。

  • 然而,他们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,
  • 这会因合并不相关的上下文而导致计算效率低下和产生幻觉。在这项工作中,我们进行了跨多个维度系统评估过度搜索,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高可回答问题的答案准确性提出疑问,但对无法回答的问题会损害弃权权; (ii) 过度搜索在复杂推理模型中更为明显和深度研究系统,由于嘈杂的检索和多轮对话中的跨轮复合而加剧;和(iii) 检索到的证据的构成至关重要,因为负面证据的存在会提高弃权率。量化为了避免过度搜索,我们引入了“正确性令牌数”(TPC),这是一种捕获性能成本的评估指标搜索增强法学硕士的权衡。最后,我们研究查询和检索级别的缓解方法并发布 OverSearchQA 基准,以促进对高效搜索增强法学硕士的持续研究。† 杜克大学** 在 Apple 期间完成的工作