新报告:利用统计模型扩展人工智能评估工具箱

NIST AI 800-3 认为,LLM 评估的统计有效性得益于评估者明确采用模型来分析评估结果并披露相关假设。广义线性混合建模是一种有前途的方法,可以为更有原则的人工智能评估统计奠定基础。未来的 CAISI 和 NIST 出版物将进一步探讨统计模型在人工智能评估中的应用。

来源:美国国家标准与技术研究院__标准品信息

图片来源:NicoElNino/Shutterstock

我们正在招聘!

请访问 CAISI 职业页面,了解有关我们的空缺职位和机会的更多信息。

提高人工智能系统评估的有效性和稳健性是 NIST 人工智能测量科学工作的持续目标。 NIST 人工智能标准与创新中心 (CAISI) 和信息技术实验室 (ITL) 发布了一份新出版物,旨在帮助提高人工智能基准评估的统计有效性:NIST AI 800-3用统计模型扩展人工智能评估工具箱。

主要贡献

基准式评估是了解人工智能系统性能的重要工具。然而,分析和报告基准结果的常用方法可能(1)依赖隐含假设,(2)混淆系统性能的不同概念,或(3)无法准确量化不确定性。一旦存在,这些差距就会导致很难或不可能根据基准评估结果来解释和做出决策。

在 NIST AI 800-3 中,我们开发了一种用于人工智能评估的统计模型,该模型正式化了评估假设和测量目标。贡献包括以下内容:

  • 我们区分了两种性能衡量标准——基准准确性(基准中包含的一组问题的性能)和广义准确性(与基准中类似的更广泛问题的性能)。基准精度和广义精度可能存在显着差异,因此必须以不同的方式进行计算,如下图所示。
  • 除了审查和扩展现有方法来估计这些准确性指标之外,我们还演示了一种基于广义线性混合模型 (GLMM) 的方法。 GLMM 是其他领域的一项成熟技术,但在人工智能评估者中并不常用。
  • 在以下部分中,我们简要概述 NIST AI 800-3 的主要贡献。

    图片来源:人工智能标准与创新中心

    明确定义的性能指标

    展望未来