AI 技术已经并且目前正在部署到对个人和人群有影响的应用中,但通常无法有效测量关键的系统属性。在一些情况下,人们花费了一些精力/费用部署了人工智能系统,但当指标表明该系统在一个或多个属性方面存在问题时,这些系统就会被放弃(或“搁置”很长一段时间)。很明显,随着人工智能技术从实验室走向社会,对这些属性的评估和测量标准是至关重要的。美国国家标准与技术研究所 (NIST) 在测量和评估人工智能 (AI) 技术方面有着悠久的历史,涉及信息检索 [ 26 ]、语音 [ 23 ] 和语言处理 [ 8 ]、计算机视觉 [ 21 ],