BED-LLM:利用法学硕士和贝叶斯实验设计进行智能信息收集

我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,最大化关于任务的预期信息增益 (EIG)

来源:Apple机器学习研究

我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,在给定先前收集的响应的情况下,最大化有关感兴趣任务的预期信息增益 (EIG)。我们展示了如何使用从法学硕士信念分布派生的概率模型以原则性的方式制定此 EIG,并提供对其构建中关键决策的详细见解。 BED-LLM 成功的另一个关键是许多具体的创新,例如精心设计的 EIG 估计器,不仅仅依靠上下文更新来调节先前的响应,以及提出候选查询的有针对性的策略。我们发现,与直接提示 LLM 和其他自适应设计策略相比,BED​​-LLM 在基于 20 个问题游戏并使用 LLM 主动推断用户偏好的广泛测试中取得了显着的性能提升。

  • † 牛津大学
  • ‡ 香港城市大学