深入探讨语言模型的校准:Platt 缩放、等渗回归、温度缩放

发现三种缩小置信度和准确性之间差距的事后方法。

来源:KDnuggets

简介

一个有 90% 置信度的模型应该在 90% 的情况下都是正确的。当这种关系破裂时,就会出现校准错误的问题。该模型的分数不再告诉您任何有关可靠性的有用信息。

对于大型语言模型 (LLM),错误校准很普遍。 2024 年 NAACL 调查发现,在事实 QA、代码生成和推理任务中,置信度分数与实际正确率存在差异。

另一项针对生物医学模型的研究发现,所有测试模型的平均校准分数仅为 23.9% 到 46.6%。差距是一致的。

经典机器学习中的标准解决方案是事后重新校准:在保留的验证集上拟合一个简单的函数,以将原始置信度分数映射到更好校准的概率。

三种方法占主导地位:温度缩放、普拉特缩放和等渗回归。这三个都是为区分分类器而设计的,将它们应用到法学硕士需要小心。

测量校准

主要指标是预期校准误差 (ECE)。它将预测分组为置信区间,计算每个区间的平均置信度与观察到的准确度之间的差距,以及按大小加权的区间的平均值。 ECE = 0 是完美校准。

可靠性图绘制了置信度与准确性的关系。完美校准的模型位于对角线上。其下方是一个过度自信的模型:曲线显示出很高的置信度,但准确性却跟不上。

2025 年对 GPT-4o-mini 作为文本分类器的评估发现,其 66.7% 的错误发生在超过 80% 的置信度上——典型的过度自信模式。

人们日益认为仅靠欧洲经委会是不够的。一篇研究论文建议将 ECE 与 Brier 评分、过度自信率和可靠性图配对。单个数字掩盖了模型行为不当的位置和方式的有意义的变化。

为什么法学硕士使标准设置变得复杂

法学硕士不是这样工作的。

这里有四个复杂因素很重要。

应用温度缩放

应用 Platt 缩放

结论