● D. Gunning,可解释的人工智能(xAI),技术代表,国防高级研究计划局(DARPA)(2017)● AB Arrieta,等人。可解释的人工智能(XAI):概念、分类法、机遇和挑战,走向负责任的人工智能。信息融合 58(2020):82-115。● E. Tjoa、C. Guan,可解释的人工智能(XAI)调查:面向医学 XAI (2019)。arXiv:1907.07374。● LH Gilpin、D. Bau、BZ Yuan、A. Bajwa、M. Specter、L. Kagal,解释解释:机器学习可解释性概述 (2018)。 arXiv:1806.00069 ● FK Došilović、M. Brćić、N. Hlupić,可解释的人工智能:一项调查,载于:第 41 届信息和通信技术、电子和微电子国际会议 (MIPRO),2018 年,第 210-215 页。● A. Adadi、M. Berrada,窥视黑匣子内部:可解释的人工智能 (XAI) 调查,IEEE Access 6 (2018) 52138-52160。● O. Biran、C. Cotton,机器学习中的解释和论证:一项调查,载于:IJCAI-17 可解释人工智能 (XAI) 研讨会,第 8 卷,2017 年,第 1 页。● ST Shane、T. Mueller、RR Hoffman、W. Clancey、G. Klein,《人机交互系统中的解释:可解释人工智能的关键思想和出版物及参考书目的文献元评论概要》,国防高级研究计划局 (DARPA) XAI 计划技术代表 (2019)。● R. Guidotti、A. Monreale、S. Ruggieri、F. Turini、F. Giannotti、D. Pedreschi,《解释黑盒模型的方法调查》,ACM 计算调查 51 (5) (2018) 93:1–93:42。
机器学习方法在生物识别和个人信息处理(例如法医、电子医疗、招聘和电子学习)领域的重要性日益增加。在这些领域,基于机器学习方法构建的系统的白盒(人类可读)解释可能变得至关重要。归纳逻辑编程 (ILP) 是符号 AI 的一个子领域,旨在自动学习有关数据处理的声明性理论。从解释转换中学习 (LFIT) 是一种 ILP 技术,可以学习与给定黑盒系统等同的命题逻辑理论(在特定条件下)。本研究通过检查 LFIT 在特定 AI 应用场景中的可行性,迈出了将准确的声明性解释纳入经典机器学习的通用方法的第一步:基于使用机器学习方法生成的自动工具进行公平招聘,用于对包含软生物特征信息(性别和种族)的简历进行排名。我们展示了 LFIT 对这个特定问题的表达能力,并提出了一个可应用于其他领域的方案。
摘要背景:在人工智能 (AI) 应用于医疗保健领域时,可解释性是最受争议的话题之一。尽管人工智能驱动的系统已被证明在某些分析任务中表现优于人类,但缺乏可解释性仍然引发批评。然而,可解释性不是一个纯粹的技术问题,相反,它引发了一系列需要彻底探索的医学、法律、伦理和社会问题。本文对可解释性在医学人工智能中的作用进行了全面评估,并对可解释性对于将人工智能驱动的工具应用于临床实践的意义进行了伦理评估。方法:以基于人工智能的临床决策支持系统为例,我们采用多学科方法从技术、法律、医学和患者的角度分析了可解释性对医学人工智能的相关性。基于这一概念分析的结果,我们随后进行了伦理评估,使用 Beauchamp 和 Childress 的“生物医学伦理原则”(自主、仁慈、不伤害和正义)作为分析框架,以确定医疗 AI 中可解释性的必要性。结果:每个领域都强调了一组不同的核心考虑因素和价值观,这些因素与理解可解释性在临床实践中的作用有关。从技术角度来看,可解释性必须从如何实现和从发展角度来看有什么好处两个方面来考虑。从法律角度来看,我们将知情同意、医疗器械认证和批准以及责任确定为可解释性的核心接触点。医学和患者的观点都强调了考虑人类行为者和医疗 AI 之间相互作用的重要性。我们得出的结论是,在临床决策支持系统中忽略可解释性会对医学的核心伦理价值观构成威胁,并可能对个人和公共健康产生不利影响。结论:为了确保医疗 AI 兑现其承诺,需要让开发人员、医疗保健专业人员和立法者意识到医疗 AI 中不透明算法的挑战和局限性,并促进多学科合作。关键词:人工智能、机器学习、可解释性、可解释性、临床决策支持
随着机器学习方法越来越多地用于增强人类决策能力,可解释人工智能 (XAI) 研究探索了将系统行为传达给人类的方法。然而,这些方法往往无法解释人类在与解释互动时的情感反应。面部情感分析研究人类面部的情绪表达,是了解用户如何参与解释的一个有前途的视角。因此,在这项工作中,我们的目标是 (1) 确定人们与 XAI 界面交互时哪些面部情感特征会很明显,以及 (2) 开发一个多任务特征嵌入,将面部情感信号与参与者对解释的使用联系起来。我们的分析和结果表明,当参与者未能有效地使用解释时,面部 AU1 和 AU4 以及唤醒的发生和值会增加。这表明面部情感分析应该纳入 XAI,以根据个人的互动风格个性化解释,并根据执行任务的难度调整解释。
第二,我们讨论法律,技术和行为因素如何提供有关在哪种背景下使用我们的法律-XAI分类法的解释的指导。以信用评分为例,我们演示了法律如何规定可以将哪种类型的解释方法用于特定算法决策系统。我们展示了法律,计算机科学和行为原则的结合如何指导决策者,法律学者和计算机科学家为特定法律领域选择正确的解释方法。第三,我们证明了如何将我们的法律-XAI分类法应用于包括医疗补助,高等教育和自动决策在内的各个领域。我们认为,在创建解释权时,决策者应该更具体。自动化的决定通常可以用大量的解释方法来解释,决策者应指定哪些解释应必须提高决策者的政策目标。我们的法律-XAI分类法可以帮助决策者根据其政策目标确定正确的解释方法。
摘要人工智能(AI)和机器学习(ML)正在彻底改变各个领域的人类活动,而医学和传染病并不能免除其快速和指数的增长。此外,可解释的AI和ML的领域已经获得了特别的相关性,并引起了人们的兴趣越来越大。传染病已经开始从可解释的AI/ML模型中受益。例如,在抗菌病毒预测和量子疫苗算法中,它们已被采用或提议更好地理解旨在改善2019年冠状病毒疾病诊断和管理的复杂模型。尽管有关解释性和可解释性之间二分法的某些问题仍然需要仔细关注,但对复杂的AI/ML模型如何得出其预测或建议的深入了解对于正确地面对本世纪传染病的日益严重的挑战变得越来越重要。
近年来,检测变形人脸图像的任务变得非常重要,以确保基于人脸图像的自动验证系统(例如自动边境控制门)的安全性。基于深度神经网络 (DNN) 的检测方法已被证明非常适合此目的。然而,它们在决策过程中并不透明,而且不清楚它们如何区分真实人脸图像和变形人脸图像。这对于旨在协助人类操作员的系统尤其重要,因为人类操作员应该能够理解其中的推理。在本文中,我们解决了这个问题,并提出了聚焦分层相关性传播 (FLRP)。该框架在精确的像素级别向人类检查员解释深度神经网络使用哪些图像区域来区分真实人脸图像和变形人脸图像。此外,我们提出了另一个框架来客观地分析我们方法的质量,并将 FLRP 与其他 DNN 可解释性方法进行比较。该评估框架基于移除检测到的伪影并分析这些变化对 DNN 决策的影响。特别是,如果 DNN 的决策不确定甚至不正确,与其他方法相比,FLRP 在突出显示可见伪影方面表现得更好。
皮肤癌检测是临床决策支持的一个常见应用 [7]。由于皮肤癌患者数量的增加和早期检测的良好治疗效果,过去几年来,人们在该领域进行了大量研究。在此背景下,DNN 已成为开发皮肤图像分类模型的可行方法 [2、8、12、30]。社区的高度关注导致出现了各种不同方法,其性能水平也参差不齐。1 所有方法的共同点都是训练一个可用于诊断并从而用于临床决策支持的模型。因此,新方法的评估标准通常是它们是否能够使模型在各种皮肤病诊断任务中取得更好的性能结果 [21]。同时,其他 AI 研究领域也越来越多地考虑对模型预测的解释。相比之下,这些技术在皮肤图像分类中的应用几乎没有得到解决,尽管最近的一些研究已经认识到
缺乏深度学习模型的解释性限制了在临床实践中采用此类模型。基于原型的模型可以提供固有的可解释预测,但是这些预测主要是为分类任务而设计的,尽管医学想象中有许多重要的任务是连续的回归问题。因此,在这项工作中,我们介绍了专家:专门为回归任务设计的可解释原型模型。使用原型标签的加权平均值,我们提出的模型从分离到潜在空间中的一组学习原型的样本预测。潜在空间中的距离正规化为相对于标签差异,并且可以将每个原型视为训练集中的样本。图像级距离是从斑块级距离构建的,其中两个图像的贴片使用最佳传输在结构上匹配。因此,这提供了一个基于示例的解释,并在推理时间提供了补丁级的细节。我们演示了我们提出的两个成像数据集上的脑年龄预测模型:成人MR和胎儿超声。我们的方法实现了最先进的预测性能,同时洞悉模型的推理过程。
- 从数据中可以了解到虚假相关性,这通常会妨碍模型的泛化能力并导致糟糕的现实世界结果。 - 失去可调试性和透明度,导致信任度低以及无法修复或改进模型和/或结果。此外,这种缺乏透明度阻碍了这些模型的采用,特别是在受监管的行业,例如银行和金融或医疗保健。 - 代理目标导致模型离线执行(通常是匹配代理指标)与部署在应用程序中时的性能之间存在很大差异。 - 由于模型从业者在有问题的情况下本地调整模型行为的能力下降而失去控制。 - 不良的数据放大反映了与我们的社会规范和原则不一致的偏见。