偏置关键词检索结果

连击切割长途偏置

Combos Cut Long-Shot Bias

简单的投注市场长期以来一直遭受长期偏见的困扰:长期机会太高,而最喜欢的机会太低。

在语言模型中重新审视不确定性量化评估:与响应长度偏差结果的虚假互动

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过广泛的测试7来证实这是经验上发生的……