部署后,可靠、安全、保密或公平。NIST 将通过 ARIA 保护伞下各种领域的评估和相关活动吸引公众。ARIA 评估将包括模型测试、红队测试和现场测试。任务和相关活动将针对每次评估进行定制。提供给 NIST 的模型和系统将使用一套侧重于技术和社会稳健性的指标在 ARIA 任务上进行评估;这些新指标将与 ARIA 参与者社区合作开发。预期的计划成果包括可扩展的指南、工具、方法和指标,供组织用于评估其 AI 系统在其特定用例中的安全性,并作为其治理和决策过程的一部分,以设计、开发、发布或使用 AI 技术。ARIA 0.1 试点评估