最近已经提出了几种不确定性估计方法,以用于机器翻译评估。尽管这些方法可以提供不信任模型预测的有用指示,但我们在本文中表明,大多数人倾向于低估模型的不确定性,因此,它们通常会产生不涵盖地面真理的误导性置信区间。我们建议使用保形预测,这是一种无分布的方法,可以在覆盖范围内获得具有理论上确定的固定性的置信区间。首先,我们证明了拆分的保形预测可以“正确”以前方法的置信区间,以产生所需的覆盖水平,并且我们在多个机器翻译评估指标和不确定性量化方法中揭示了这些发现。此外,我们以估计的置信区间重点介绍了偏见,并以不同属性(例如语言和翻译质量)的不平衡覆盖范围重新介绍了偏见。我们通过应用条件保形预测技术来解决每个数据子组的校准子集,从而导致均等覆盖范围。总体而言,我们表明,提供了对校准集的访问,共形预测可以帮助识别最合适的不确定性量化方法并调整预测的置信区间,以确保与不同属性有关。1