人工智能和机器学习 (AI/ML) 算法在医疗保健领域的发展日渐成熟,用于诊断和治疗各种医疗状况 ( 1 )。然而,尽管此类系统技术实力雄厚,但它们的采用却一直充满挑战,它们是否能真正改善医疗保健以及在多大程度上改善医疗保健仍有待观察。一个主要原因是,基于 AI/ML 的医疗设备的有效性在很大程度上取决于其用户的行为特征,例如,用户往往容易受到有据可查的偏见或算法厌恶的影响 ( 2 )。许多利益相关者越来越多地将预测算法所谓的黑箱性质视为用户持怀疑态度、缺乏信任和接受缓慢的核心原因 ( 3, 4 )。因此,立法者一直在朝着要求提供黑箱算法决策解释的方向发展 (5) 。事实上,学术界、政府和民间社会团体几乎一致支持可解释的 AI/ML。许多人被这种方法吸引,因为它既能利用不可解释的人工智能/机器学习(如深度学习或神经网络)的准确性优势,又能支持透明度、信任和采用。我们认为,这种共识至少在应用于医疗保健领域时,既夸大了要求黑盒算法可解释的好处,又低估了其弊端。
随着机器学习方法越来越多地用于增强人类决策能力,可解释人工智能 (XAI) 研究探索了将系统行为传达给人类的方法。然而,这些方法往往无法解释人类在与解释互动时的情感反应。面部情感分析研究人类面部的情绪表达,是了解用户如何参与解释的一个有前途的视角。因此,在这项工作中,我们的目标是 (1) 确定人们与 XAI 界面交互时哪些面部情感特征会很明显,以及 (2) 开发一个多任务特征嵌入,将面部情感信号与参与者对解释的使用联系起来。我们的分析和结果表明,当参与者未能有效地使用解释时,面部 AU1 和 AU4 以及唤醒的发生和值会增加。这表明面部情感分析应该纳入 XAI,以根据个人的互动风格个性化解释,并根据执行任务的难度调整解释。
鉴于人工智能开发人员在确保人工智能系统、其成果和此类系统用户的责任方面发挥着重要作用,我们需要他们采取负责任、合乎道德和负责任的方法。因此,我们建议这些参与者参与旨在产生负责任的人工智能设计和使用的政策制定过程。根据我们的实证研究结果,我们提出了几项建议,以弥补当前在追求负责任的人工智能时将道德原则、认证标准和解释方法作为问责机制所发现的缺陷。我们希望这些建议能够有助于讨论如何在实践中确保问责制,同时兼顾开发人员、研究人员和公众的观点。
引言人工智能 (AI) 的发展已展现出令人瞩目的性能,特别是在图像处理或游戏等明确定义的领域。然而,所部署的技术对于人类用户来说可能是不透明的,这引发了一个问题:人工智能系统如何提供解释 (Neerincx 等人,2018 年;Rosenfeld 和 Richardson,2019 年),并且监管框架对可解释人工智能 (XAI) 的需求日益增长。话虽如此,2017 年,谷歌的研究主管 Peter Norvig 指出,在人类可能不擅长提供“解释”的情况下期望计算机提供“解释”是具有讽刺意味的。可解释人工智能 (XAI) 的大部分工作都严重依赖于以计算机为中心的视角 (Springer,2019 年)。例如,Holzinger 等人 (2020) 假设人类和人工智能系统可以平等地访问“基本事实”。由此可见,可解释性“……突出了机器表示中与决策相关的部分……,即有助于模型在训练中的准确性或特定预测的部分。”与许多 XAI 文献一样,这并没有为人类提供任何角色,只能作为被动接受者。这意味着人工智能系统能够反省自己的过程来生成解释。然后将得到的解释呈现给用户,并描述人工智能系统的流程或它使用过的特征(“决策相关部分”)。这样,解释就只是一个建议(来自人工智能系统)加上与此相关的特征。正如 Miller (2017) 所指出的那样,这种态度的一个问题在于,它是基于设计师对什么是“好的”解释的直觉,而不是基于对人类如何响应和利用解释的合理理解。这并不能说明为什么选择某些特征,也不能说明为什么建议适合用户的关注点。它也没有将解释置于更广泛的组织中;分析师的解释可能与数据收集管理人员或接受分析师简报的经理的解释不同。对于 Holzinger 等人 (2020) 来说,情况的各个方面(定义为基本事实)被组合成一个陈述;也就是说,解释只是这个陈述的一种表达。这意味着从特征到解释存在线性插值。这类似于 Hempel 和 Oppenheim (1948) 的“覆盖定律模型”,该模型关注的是历史学家如何根据先前的原因来解释事件。然而,“基本事实”(由 Holzinger 的过程模型和覆盖定律模型假设)很少得到完全定义(导致在选择相关特征时产生歧义)。这意味着,仅仅陈述情况方面而不说明为什么选择这些方面(而不是其他方面)可能不会产生有用或可用的解释。霍夫曼等人(2018)对与解释相关的文献进行了全面的回顾。从这篇评论来看,解释涉及人类的理解(将人工智能系统的输出置于特定情境中),我们同意,考虑这一点的适当框架是数据框架的理解模型(Klein 等人,2007)。此外,理解(及其与解释的关系)依赖于认识到过程(提供和接收解释)必须是相互的、迭代的和协商的。这个过程依赖于“解释者”和“被解释者”达成一致。换句话说,解释涉及“共同点”(Clark,1991),其中理解上有足够的一致性以使对话继续进行。对话的性质将取决于提供解释的情况和被解释者的目标。例如,被解释者可能是“受训者”,他试图理解解释以学习决策标准,也可能是“分析师”,使用人工智能系统的建议作为政策。
最先进的人工智能 (AI) 技术已经达到了令人印象深刻的复杂性。因此,研究人员正在发现越来越多的方法将它们用于实际应用。但是,这种系统的复杂性要求引入使这些系统对人类用户透明的方法。AI 社区正试图通过引入可解释 AI (XAI) 领域来克服这一问题,该领域旨在使 AI 算法不那么晦涩难懂。但是,近年来,人们越来越清楚地认识到 XAI 不仅仅是一个计算机科学问题:由于它与通信有关,因此 XAI 也是人机交互问题。此外,AI 走出实验室是为了在现实生活中使用。这意味着需要针对非专家用户量身定制的 XAI 解决方案。因此,我们提出了一个以用户为中心的 XAI 框架,该框架侧重于其社交互动方面,灵感来自认知和社会科学的理论和发现。该框架旨在为非专家用户提供交互式 XAI 解决方案的结构。
可解释人工智能 (XAI) 领域已迅速成为一个蓬勃发展且成果丰硕的社区。然而,该领域一个不为人知、反复出现且公认的问题是缺乏对其术语的共识。特别是,每一项新贡献似乎都依赖于其自己的(通常是直观的)术语版本,例如“解释”和“阐释”。这种混乱阻碍了该领域进步的巩固,无法满足科学和监管要求,例如在比较方法或确定其对偏见和公平约束的遵从性时。我们提出了一个理论框架,它不仅为这些术语提供了具体的定义,而且还概述了产生解释和阐释所需的所有步骤。该框架还允许重新语境化现有贡献,以便可以衡量其范围,从而使它们与其他方法具有可比性。我们表明,该框架符合对解释、可解释性和评估指标的要求。我们提供了一个用例,展示了如何使用该框架来比较 LIME、SHAP 和 MDNet,确定它们的优点和缺点。最后,我们从我们的框架的角度讨论了 XAI 的相关趋势以及对未来工作的建议。
皮肤癌检测是临床决策支持的一个常见应用 [7]。由于皮肤癌患者数量的增加和早期检测的良好治疗效果,过去几年来,人们在该领域进行了大量研究。在此背景下,DNN 已成为开发皮肤图像分类模型的可行方法 [2、8、12、30]。社区的高度关注导致出现了各种不同方法,其性能水平也参差不齐。1 所有方法的共同点都是训练一个可用于诊断并从而用于临床决策支持的模型。因此,新方法的评估标准通常是它们是否能够使模型在各种皮肤病诊断任务中取得更好的性能结果 [21]。同时,其他 AI 研究领域也越来越多地考虑对模型预测的解释。相比之下,这些技术在皮肤图像分类中的应用几乎没有得到解决,尽管最近的一些研究已经认识到
近年来,检测变形人脸图像的任务变得非常重要,以确保基于人脸图像的自动验证系统(例如自动边境控制门)的安全性。基于深度神经网络 (DNN) 的检测方法已被证明非常适合此目的。然而,它们在决策过程中并不透明,而且不清楚它们如何区分真实人脸图像和变形人脸图像。这对于旨在协助人类操作员的系统尤其重要,因为人类操作员应该能够理解其中的推理。在本文中,我们解决了这个问题,并提出了聚焦分层相关性传播 (FLRP)。该框架在精确的像素级别向人类检查员解释深度神经网络使用哪些图像区域来区分真实人脸图像和变形人脸图像。此外,我们提出了另一个框架来客观地分析我们方法的质量,并将 FLRP 与其他 DNN 可解释性方法进行比较。该评估框架基于移除检测到的伪影并分析这些变化对 DNN 决策的影响。特别是,如果 DNN 的决策不确定甚至不正确,与其他方法相比,FLRP 在突出显示可见伪影方面表现得更好。
