1994 年,美国生物特征识别联盟领导层 1 向自动人机识别(“生物特征识别”)社区提出了一系列问题,这些问题围绕着性能测试中测量的可重复性和再现性问题。尽管我们在理解方面取得了重大进展,但这些问题尚未完全解决。本文在更广泛的科学实验背景和 NIST 数据评估和报告传统中讨论了我们当前对可重复性和再现性的方法。我们讨论了关于测试整体论的 Duhem-Quine 论题、Churchill Eisenhart 的“统计控制”概念、NIST 和 ISO 对实验室测量不确定性的方法、测试结果与系统操作员评估的“性能”之间当前的脱节(缺乏归纳相关性),以及我们当前生物特征识别测试程序中对统计控制和不确定性评估的需求。我们说明了测量不确定性在技术、场景和操作测试中是如何体现的,并主张超越 ISO/IEC“测量不确定性表达指南”中定义的“覆盖”间隔的计算,全面应用不确定性评估的概念。