GLUE [Wang et al., 2019a] 或 ImageNet [Deng et al., 2009] 等基准通常被提升为验证任何给定模型性能的基本常见任务的定义。因此,通过这些基准数据集证明的主张通常远远超出了它们最初设计的任务,甚至超出了最初的开发目标。尽管这些基准被展示和接受为通用能力进步的标志,但它们也存在明显的局限性。事实上,它们的开发、使用和采用的现实表明了一个构造有效性问题,其中所涉及的基准——由于它们在特定数据、指标和实践中的实例化——不可能捕捉到任何代表对它们的普遍适用性的主张的东西。在本文中,我们阐明了对
主要关键词