生成的AI(Genai)模型最近在各种应用中取得了出色的经验性能,但是它们的评估缺乏不确定性定量。在本文中,我们提出了一种基于其相对性能差距的无偏估计器比较两个生成模型的方法。从统计学上讲,我们的估计器达到了参数收敛率和渐近正态性,从而实现有效的推理。在计算上,我们的方法是有效的,可以通过并行计算和利用预存储的中间结果来加速。在具有已知地面真相的模拟数据集上,我们显示了我们的方法有效地控制I型错误,并实现与综合使用指标相当的功率。此外,我们还以统计置信度证明了方法在评估真实图像数据集上的扩散模型时的性能。
主要关键词