在语言模型中重新审视不确定性量化评估:与响应长度偏差结果的虚假互动
语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过广泛的测试7来证实这是经验上发生的……
来源:Apple机器学习研究语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过在4个数据集X 4模型X 8 UQ方法中测试从基于词汇和嵌入的指标到LM-AS-A-Gudge方法的7种广泛使用的正确性函数来证实这一情况。我们的分析表明,正确性函数的长度偏差通过与UQ方法中的长度偏差相互作用而扭曲了UQ评估。我们将LM-AS-A-A-Audge方法确定为最小偏见,为更公平的UQ评估提供了有希望的途径。
- **在Apple†Sapienza罗马大学完成的工作‡新加坡国立大学