学习充满信心的标记来路由LLM

大型语言模型(LLM)在几个任务上表现出了令人印象深刻的性能,并且越来越多地部署在现实世界中的应用程序中。但是,尤其是在高风险设置中,了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖,系统可以选择将问题路由将问题路由到另一个专家,或者以其他方式依靠安全的默认行为。在这项工作中,我们研究了LLM可以可靠地表明其答案的信心的程度,以及这种信心概念如何转化为下游的准确性……

来源:Apple机器学习研究

大型语言模型(LLM)在几个任务上表现出了令人印象深刻的性能,并且越来越多地部署在现实世界中的应用程序中。但是,尤其是在高风险设置中,了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖,系统可以选择将问题路由将问题路由到另一个专家,或者以其他方式依靠安全的默认行为。在这项工作中,我们研究了LLM可以可靠地表明其答案的信心的程度,以及这种信心概念如何转化为下游准确性的提高。我们建议使用基于错误的反馈(自我REF)进行自我反思,这是一种轻巧的培训策略,以教导LLMS对他们的答案是否以可靠的方式表达信心。自我REF将置信令牌引入LLM,从中可以从中提取置信度评分。与传统的方法(例如口头上的信心和检查令牌概率)相比,我们从经验上证明了信心令牌在下游路由和拒绝学习任务方面显示出显着改善。

    **在Apple†莱斯大学完成工作
  • **在Apple
  • †赖斯大学