SelfReflect:法学硕士可以传达他们的内部答案分布吗?

传达大型语言模型 (LLM) 不确定性的常见方法是在其响应中添加百分比数字或保护语。但这就是我们能做的一切吗?对用户完全透明的法学硕士需要能够反映其内部信念分布并输出其认为可能的所有选项及其可能性的摘要,而不是生成单个答案然后对其进行对冲。为了测试法学硕士是否具备这种能力,我们开发了 SelfReflect 指标,即给定摘要与答案分布之间的信息论距离。在...

来源:Apple机器学习研究

传达大型语言模型 (LLM) 不确定性的常见方法是在其响应中添加百分比数字或保护语。但这就是我们能做的一切吗?对用户完全透明的法学硕士需要能够反映其内部信念分布并输出其认为可能的所有选项及其可能性的摘要,而不是生成单个答案然后对其进行对冲。为了测试法学硕士是否具备这种能力,我们开发了 SelfReflect 指标,即给定摘要与答案分布之间的信息论距离。在干预和人类研究中,我们发现 SelfReflect 甚至可以显示出轻微的偏差,从而可以很好地衡量摘要字符串与法学硕士对答案的实际内部分布之间的忠实度。通过 SelfReflect,我们做出了一个响亮的负面观察:现代法学硕士无论是通过推理、思维链还是明确的微调,都无法揭示他们不确定的事情。然而,我们确实发现,如果我们通过对多个输出进行采样并将其反馈到上下文中来帮助法学硕士,他们就能够对其不确定性进行忠实的总结。这种简单的方法揭示了沟通 LLM 不确定性的通用方式,SelfReflect 分数可以实现这种不确定性的未来发展。

  • † 独立研究员
  • ‡ 图宾根人工智能中心