简介 近年来,人们对如何使人工智能系统对人类更加“可解释”或“可解释”的问题产生了浓厚的兴趣。然而,这些术语在文献中用于指代许多不同的目标 [10, 17, 19]。例如,可解释性方面的工作有时侧重于增强人类在心理上模拟和预测人工智能系统行为的能力 [16, 17, 22] 或评估反事实的能力 [27]。其他工作则探讨了帮助人类分解模型、理解其组成部分(例如参数)以及这些部分如何组合在一起的方法 [17]。从以人为本的角度来看,这些设计目标可以理解为支持不同的人类能力,每种能力在不同的现实世界环境中可能或多或少都有用。例如,在调试 AI 系统时,分解模型可能很有用。在决策环境中,识别可能影响模型可靠性的情况的能力可能更有帮助 [11, 20]。