方法阻止 AI 模型避免对错误答案过度自信

“温度计”技术比其他方法更有效,可以帮助人们知道何时应该信任大型语言模型。

来源:MIT新闻 - 人工智能

人们使用大型语言模型来完成一系列任务,从翻译文章到确定财务欺诈。但是,尽管这些模型具有令人难以置信的功能和多功能性,但它们有时会产生不准确的响应。

在这个问题之外,模型可以过分自信,或者对正确的答案的自信不足,因此用户很难知道何时可以信任模型。

研究人员通常会校准机器学习模型,以确保其置信度水平与其准确性对齐。经过良好的模型对不正确的预测的信心较小,反之亦然。但是,由于大型语言模型(LLM)可以应用于看似无限的不同任务集合,因此传统的校准方法无效。

现在,MIT和MIT-IBM Watson AI实验室的研究人员推出了针对大型语言模型量身定制的校准方法。他们的方法称为温度计,涉及建立一个较小的辅助模型,该模型在大型语言模型的顶部运行以校准它。

温度计

温度计比其他方法更有效(需要更少的耗电计算),同时保留模型的准确性并使其能够对以前从未见过的任务产生更好的响应。

通过对各种任务进行有效的LLM校准,可以帮助用户指出模型对虚假预测过高自信的情况,最终阻止他们在可能失败的情况下部署该模型。

“使用温度计,我们希望为用户提供明确的信号,以告诉他们模型的响应是准确的还是不准确的,以反映模型的不确定性的方式,以便他们知道该模型是否可靠。

温度计上的纸

通用校准

有效的方法