无论在设计和开发上投入了多少时间和精力,所有系统都会在某个时候失效。人工智能系统也不例外,容易出现意想不到的、有时甚至是惊人的故障模式。一些故障表明系统组件的脆弱性,例如小贴纸会阻止自动驾驶汽车的感知系统识别停车标志 [1] 。其他故障则表明攻击者如何利用人工智能的新界面来导致故障,例如社交媒体“喷子”通过一连串种族主义语言改变人工智能聊天机器人的个性 [1], [2] 。还有一些故障凸显了系统缺乏多功能性,例如当你的智能扬声器无法回应带有口音的朋友的声音时。即使是在严格控制的开发、实验室和测试环境中操作,能力强且意图良好的开发人员也会无意中创建跨领域和用例的易发生故障的系统。我们如何才能为复杂且模糊的环境(例如国家安全领域)构建强大且安全的人工智能系统?在这些环境中,故障的潜在后果可能是灾难性的。