问题的重要性和新颖性。现有的UQ方法主要是针对犯罪模型的,这些方法用于分类或回归任务。这些方法虽然对图像分类或二进制决策等任务有效,但并不能很好地转化为基于LLM的自回旋模型(Brown等人。,2020年; Thoppilan等。,2022; Touvron等。,2023)。自回旋模型顺序生成令牌,其中每个输出取决于上一个。此结构引入了不确定性量化的独特挑战。首先,在自回旋模型中,产生了不确定性化合物,因此很难捕获模型对序列的置信度的幅度。llms动态适应了前面的上下文,随着模型通过文本或多模式序列的形式导致不确定性的变化。对于llms处理文本和图像模式(例如GPT-4),由于输入和输出空间的多模式性质,不确定性量化变得更加复杂。传统的UQ方法难以考虑交叉模式的相互作用,在这种互动中,一种模式中的不确定性(例如,图像理解)会影响另一种方式(例如,文本生成)。llms的另一个明显挑战是人类反馈的有限精度。现有用于校准模型的技术取决于对地面真相标签的访问。相比之下,使用LLMS没有真正的标签,一个只能访问少数几代人的相对偏好。此外,对理论框架的需求越来越大,可以有效地分析和预测分布(OOD)场景中的模型行为,在这种情况下,不确定性对于确定模型何时可能不可靠的不确定性至关重要。要应对这些挑战,UQ方法必须从量身定制的传统方法转变为判别模型,并采用新技术,这些技术可以解释自动回归模型的复杂依赖性和动态性质。
主要关键词