检测注意力错位的翻译幻觉

一种获得神经机器翻译标记级不确定性估计的低预算方法《用注意力错位检测翻译幻觉》一文首先出现在《走向数据科学》上。

来源:走向数据科学

已经有了显着的发展。然而,NMT 系统仍然像任何其他模型一样产生幻觉——尤其是在涉及资源匮乏的领域或在稀有语言对之间进行翻译时。

当 Google 翻译提供结果时,您只能看到输出文本,而看不到每个单词或句子的概率分布或不确定性度量。即使您不需要这些信息,了解模型的哪些方面有信心、哪些方面没有信心对于内部目的来说也非常有价值。例如,简单的零件可以输入到快速且廉价的模型中,而更多的资源可以分配给困难的零件。

但是我们如何评估,最重要的是,“校准”这种不确定性?首先想到的是评估每个标记的输出概率的分布,例如通过计算其熵。这计算简单,跨模型架构通用,并且如下所示,实际上与 NMT 模型不确定的情况相关。

然而,这种方法的局限性是显而易见的:

  • 首先,模型可能会在多个同义词之间进行选择,并且从标记选择的角度来看,是不确定的。
  • 其次,更重要的是,这只是一种黑盒方法,无法解释不确定性的本质。也许模型在训练过程中确实没有看到类似的东西。或者也许它只是产生了一个不存在的单词或语法结构的幻觉。
  • 现有的方法可以很好地解决这个问题,但都有其细微差别:

  • 语义熵 [1] 按语义对模型输出进行聚类,但需要为单个输入生成 5-10 个输出,这在计算上是昂贵的(坦率地说,当我尝试在标记数据集上重现这一点时,观察到的这些聚类中单词的语义相似性是值得怀疑的)。
  • 通过显着性分析进行模型内省 [3] 看起来很有趣,但也存在解释问题。
  • 模型输出: