详细内容或原文请订阅后点击阅览
新报告:利用统计模型扩展人工智能评估工具箱
NIST AI 800-3 认为,LLM 评估的统计有效性得益于评估者明确采用模型来分析评估结果并披露相关假设。广义线性混合建模是一种有前途的方法,可以为更有原则的人工智能评估统计奠定基础。未来的 CAISI 和 NIST 出版物将进一步探讨统计模型在人工智能评估中的应用。
来源:美国国家标准与技术研究院__标准品信息图片来源:NicoElNino/Shutterstock
我们正在招聘!
请访问 CAISI 职业页面,了解有关我们的空缺职位和机会的更多信息。
提高人工智能系统评估的有效性和稳健性是 NIST 人工智能测量科学工作的持续目标。 NIST 人工智能标准与创新中心 (CAISI) 和信息技术实验室 (ITL) 发布了一份新出版物,旨在帮助提高人工智能基准评估的统计有效性:NIST AI 800-3用统计模型扩展人工智能评估工具箱。
主要贡献
基准式评估是了解人工智能系统性能的重要工具。然而,分析和报告基准结果的常用方法可能(1)依赖隐含假设,(2)混淆系统性能的不同概念,或(3)无法准确量化不确定性。一旦存在,这些差距就会导致很难或不可能根据基准评估结果来解释和做出决策。
在 NIST AI 800-3 中,我们开发了一种用于人工智能评估的统计模型,该模型正式化了评估假设和测量目标。贡献包括以下内容:
在以下部分中,我们简要概述 NIST AI 800-3 的主要贡献。
图片来源:人工智能标准与创新中心
明确定义的性能指标
展望未来
