CAISI signs MOU with GSA to boost AI evaluation science in federal procurement through USAi
CAISI 与美国总务管理局签署的谅解备忘录 (MOU) 将支持 USAi 联邦采购阶段的人工智能评估,USAi 是一个安全的生成平台和集中采购工具箱,使联邦机构能够自信地大规模采用人工智能。
New Report: Expanding the AI Evaluation Toolbox with Statistical Models
NIST AI 800-3 认为,LLM 评估的统计有效性得益于评估者明确采用模型来分析评估结果并披露相关假设。广义线性混合建模是一种有前途的方法,可以为更有原则的人工智能评估统计奠定基础。未来的 CAISI 和 NIST 出版物将进一步探讨统计模型在人工智能评估中的应用。