详细内容或原文请订阅后点击阅览
评估评估指标——幻觉检测的幻象
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
来源:Apple机器学习研究幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了当前幻觉评估中的差距:指标通常无法与人类的判断相一致,对问题的看法过于短视,并且显示出与参数缩放不一致的增益。令人鼓舞的是,基于 LLM 的评估,特别是使用 GPT-4,产生了最好的总体结果,并且模式搜索解码方法似乎可以减少幻觉,尤其是在以知识为基础的环境中。这些发现强调需要更强大的指标来理解和量化幻觉,以及更好的策略来缓解幻觉。
- † 南加州大学* 在 Apple 期间完成的工作
