问题:当今用于构建大多数机器学习模型的过程存在一个根本问题。一般方法是在大量示例上训练模型,然后在尚未见过的类似示例上对其进行测试。通过该测试表明模型已完成。正如谷歌的研究人员 [D’Amour 等人,2020] 指出的那样,这个标准太低,无法产生稳健的模型,因为许多不同的模型都可以通过测试,但它们会以微小的任意方式有所不同,这取决于过程中做出的不同选择。如果这些微小的差异不会影响测试结果,通常会被忽略——但它们可能会导致现实世界性能的巨大差异,其中一些模型是不正确的。这个问题被称为“规格不足”,这意味着即使训练过程能够产生一个好的模型,也可能产生一个坏的模型,因为它无法分辨出差异——其他人也分辨不出。