识别过度自信的大型语言模型的更好方法

这种用于测量不确定性的新指标可以标记幻觉并帮助用户知道是否信任人工智能模型。

来源:MIT新闻 - 人工智能

大型语言模型 (LLM) 可以生成可信但不准确的响应,因此研究人员开发了不确定性量化方法来检查预测的可靠性。一种流行的方法是多次提交相同的提示,以查看模型是否生成相同的答案。

但这种方法衡量的是自信心,即使是最令人印象深刻的法学硕士也可能自信地错误。过度自信可能会误导用户关于预测的准确性,这可能会在医疗保健或金融等高风险环境中导致毁灭性后果。

为了解决这个缺点,麻省理工学院的研究人员引入了一种新方法来测量不同类型的不确定性,该方法可以更可靠地识别有信心但不正确的法学硕士回答。

他们的方法涉及将目标模型的响应与一组类似的法学硕士的响应进行比较。他们发现,与传统方法相比,测量跨模型分歧可以更准确地捕捉这种类型的不确定性。

他们将自己的方法与法学硕士自我一致性的衡量标准相结合,创建了一个总体不确定性指标,并在 10 项实际任务(例如问答和数学推理)上对其进行了评估。这种总体不确定性指标始终优于其他指标,并且更擅长识别不可靠的预测。

“自洽性被用于许多不同的不确定性量化方法中,但如果你对不确定性的估计仅依赖于单个模型的结果,那么它不一定是可信的。我们回到了起点,了解当前方法的局限性,并以此为起点设计了一种可以凭经验改进结果的补充方法,”麻省理工学院电气工程和计算机科学 (EECS) 研究生、该技术论文的主要作者 Kimia Hamidieh 说道。

理解过度自信

麻省理工学院的研究人员通过测量类似的法学硕士群体的分歧来估计认知不确定性。