深入探讨语言模型的校准：Platt 缩放、等渗回归、温度缩放 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深入探讨语言模型的校准：Platt 缩放、等渗回归、温度缩放

2026年6月5日 14:00 33 Comments

发现三种缩小置信度和准确性之间差距的事后方法。

来源:KDnuggets

一个有 90% 置信度的模型应该在 90% 的情况下都是正确的。当这种关系破裂时，就会出现校准错误的问题。该模型的分数不再告诉您任何有关可靠性的有用信息。

对于大型语言模型 (LLM)，错误校准很普遍。 2024 年 NAACL 调查发现，在事实 QA、代码生成和推理任务中，置信度分数与实际正确率存在差异。

另一项针对生物医学模型的研究发现，所有测试模型的平均校准分数仅为 23.9% 到 46.6%。差距是一致的。

经典机器学习中的标准解决方案是事后重新校准：在保留的验证集上拟合一个简单的函数，以将原始置信度分数映射到更好校准的概率。

三种方法占主导地位：温度缩放、普拉特缩放和等渗回归。这三个都是为区分分类器而设计的，将它们应用到法学硕士需要小心。

主要指标是预期校准误差 (ECE)。它将预测分组为置信区间，计算每个区间的平均置信度与观察到的准确度之间的差距，以及按大小加权的区间的平均值。 ECE = 0 是完美校准。

可靠性图绘制了置信度与准确性的关系。完美校准的模型位于对角线上。其下方是一个过度自信的模型：曲线显示出很高的置信度，但准确性却跟不上。

2025 年对 GPT-4o-mini 作为文本分类器的评估发现，其 66.7% 的错误发生在超过 80% 的置信度上——典型的过度自信模式。

人们日益认为仅靠欧洲经委会是不够的。一篇研究论文建议将 ECE 与 Brier 评分、过度自信率和可靠性图配对。单个数字掩盖了模型行为不当的位置和方式的有意义的变化。

法学硕士不是这样工作的。

这里有四个复杂因素很重要。

置信度生物医学可靠性错误的保留的模型有用信息校准应用机器学习 ECE 发现校准的典型的准确度平均值过度一致的设计的对角线观察到的为什么 90% 法学硕士分数校准误差正确的模型的分类器准确性测试模型自信工作的简单的缩放