人工智能和机器学习 (AI/ML) 算法在医疗保健领域的发展日渐成熟,用于诊断和治疗各种医疗状况 ( 1 )。然而,尽管此类系统技术实力雄厚,但它们的采用却一直充满挑战,它们是否能真正改善医疗保健以及在多大程度上改善医疗保健仍有待观察。一个主要原因是,基于 AI/ML 的医疗设备的有效性在很大程度上取决于其用户的行为特征,例如,用户往往容易受到有据可查的偏见或算法厌恶的影响 ( 2 )。许多利益相关者越来越多地将预测算法所谓的黑箱性质视为用户持怀疑态度、缺乏信任和接受缓慢的核心原因 ( 3, 4 )。因此,立法者一直在朝着要求提供黑箱算法决策解释的方向发展 (5) 。事实上,学术界、政府和民间社会团体几乎一致支持可解释的 AI/ML。许多人被这种方法吸引,因为它既能利用不可解释的人工智能/机器学习(如深度学习或神经网络)的准确性优势,又能支持透明度、信任和采用。我们认为,这种共识至少在应用于医疗保健领域时,既夸大了要求黑盒算法可解释的好处,又低估了其弊端。
近年来,检测变形人脸图像的任务变得非常重要,以确保基于人脸图像的自动验证系统(例如自动边境控制门)的安全性。基于深度神经网络 (DNN) 的检测方法已被证明非常适合此目的。然而,它们在决策过程中并不透明,而且不清楚它们如何区分真实人脸图像和变形人脸图像。这对于旨在协助人类操作员的系统尤其重要,因为人类操作员应该能够理解其中的推理。在本文中,我们解决了这个问题,并提出了聚焦分层相关性传播 (FLRP)。该框架在精确的像素级别向人类检查员解释深度神经网络使用哪些图像区域来区分真实人脸图像和变形人脸图像。此外,我们提出了另一个框架来客观地分析我们方法的质量,并将 FLRP 与其他 DNN 可解释性方法进行比较。该评估框架基于移除检测到的伪影并分析这些变化对 DNN 决策的影响。特别是,如果 DNN 的决策不确定甚至不正确,与其他方法相比,FLRP 在突出显示可见伪影方面表现得更好。
鉴于人工智能开发人员在确保人工智能系统、其成果和此类系统用户的责任方面发挥着重要作用,我们需要他们采取负责任、合乎道德和负责任的方法。因此,我们建议这些参与者参与旨在产生负责任的人工智能设计和使用的政策制定过程。根据我们的实证研究结果,我们提出了几项建议,以弥补当前在追求负责任的人工智能时将道德原则、认证标准和解释方法作为问责机制所发现的缺陷。我们希望这些建议能够有助于讨论如何在实践中确保问责制,同时兼顾开发人员、研究人员和公众的观点。
缺乏深度学习模型的解释性限制了在临床实践中采用此类模型。基于原型的模型可以提供固有的可解释预测,但是这些预测主要是为分类任务而设计的,尽管医学想象中有许多重要的任务是连续的回归问题。因此,在这项工作中,我们介绍了专家:专门为回归任务设计的可解释原型模型。使用原型标签的加权平均值,我们提出的模型从分离到潜在空间中的一组学习原型的样本预测。潜在空间中的距离正规化为相对于标签差异,并且可以将每个原型视为训练集中的样本。图像级距离是从斑块级距离构建的,其中两个图像的贴片使用最佳传输在结构上匹配。因此,这提供了一个基于示例的解释,并在推理时间提供了补丁级的细节。我们演示了我们提出的两个成像数据集上的脑年龄预测模型:成人MR和胎儿超声。我们的方法实现了最先进的预测性能,同时洞悉模型的推理过程。
引言人工智能 (AI) 的发展已展现出令人瞩目的性能,特别是在图像处理或游戏等明确定义的领域。然而,所部署的技术对于人类用户来说可能是不透明的,这引发了一个问题:人工智能系统如何提供解释 (Neerincx 等人,2018 年;Rosenfeld 和 Richardson,2019 年),并且监管框架对可解释人工智能 (XAI) 的需求日益增长。话虽如此,2017 年,谷歌的研究主管 Peter Norvig 指出,在人类可能不擅长提供“解释”的情况下期望计算机提供“解释”是具有讽刺意味的。可解释人工智能 (XAI) 的大部分工作都严重依赖于以计算机为中心的视角 (Springer,2019 年)。例如,Holzinger 等人 (2020) 假设人类和人工智能系统可以平等地访问“基本事实”。由此可见,可解释性“……突出了机器表示中与决策相关的部分……,即有助于模型在训练中的准确性或特定预测的部分。”与许多 XAI 文献一样,这并没有为人类提供任何角色,只能作为被动接受者。这意味着人工智能系统能够反省自己的过程来生成解释。然后将得到的解释呈现给用户,并描述人工智能系统的流程或它使用过的特征(“决策相关部分”)。这样,解释就只是一个建议(来自人工智能系统)加上与此相关的特征。正如 Miller (2017) 所指出的那样,这种态度的一个问题在于,它是基于设计师对什么是“好的”解释的直觉,而不是基于对人类如何响应和利用解释的合理理解。这并不能说明为什么选择某些特征,也不能说明为什么建议适合用户的关注点。它也没有将解释置于更广泛的组织中;分析师的解释可能与数据收集管理人员或接受分析师简报的经理的解释不同。对于 Holzinger 等人 (2020) 来说,情况的各个方面(定义为基本事实)被组合成一个陈述;也就是说,解释只是这个陈述的一种表达。这意味着从特征到解释存在线性插值。这类似于 Hempel 和 Oppenheim (1948) 的“覆盖定律模型”,该模型关注的是历史学家如何根据先前的原因来解释事件。然而,“基本事实”(由 Holzinger 的过程模型和覆盖定律模型假设)很少得到完全定义(导致在选择相关特征时产生歧义)。这意味着,仅仅陈述情况方面而不说明为什么选择这些方面(而不是其他方面)可能不会产生有用或可用的解释。霍夫曼等人(2018)对与解释相关的文献进行了全面的回顾。从这篇评论来看,解释涉及人类的理解(将人工智能系统的输出置于特定情境中),我们同意,考虑这一点的适当框架是数据框架的理解模型(Klein 等人,2007)。此外,理解(及其与解释的关系)依赖于认识到过程(提供和接收解释)必须是相互的、迭代的和协商的。这个过程依赖于“解释者”和“被解释者”达成一致。换句话说,解释涉及“共同点”(Clark,1991),其中理解上有足够的一致性以使对话继续进行。对话的性质将取决于提供解释的情况和被解释者的目标。例如,被解释者可能是“受训者”,他试图理解解释以学习决策标准,也可能是“分析师”,使用人工智能系统的建议作为政策。
可解释人工智能 (XAI) 领域已迅速成为一个蓬勃发展且成果丰硕的社区。然而,该领域一个不为人知、反复出现且公认的问题是缺乏对其术语的共识。特别是,每一项新贡献似乎都依赖于其自己的(通常是直观的)术语版本,例如“解释”和“阐释”。这种混乱阻碍了该领域进步的巩固,无法满足科学和监管要求,例如在比较方法或确定其对偏见和公平约束的遵从性时。我们提出了一个理论框架,它不仅为这些术语提供了具体的定义,而且还概述了产生解释和阐释所需的所有步骤。该框架还允许重新语境化现有贡献,以便可以衡量其范围,从而使它们与其他方法具有可比性。我们表明,该框架符合对解释、可解释性和评估指标的要求。我们提供了一个用例,展示了如何使用该框架来比较 LIME、SHAP 和 MDNet,确定它们的优点和缺点。最后,我们从我们的框架的角度讨论了 XAI 的相关趋势以及对未来工作的建议。
方法论:RNA与全血或骨髓分离并反转录。所得的cDNA经过多重PCR扩增,旨在扩增P190,P210或P230 BCR-ABL1融合转录本,涉及ABL1外显子2。ABL1参考基因也被放大以进行标本质量控制并确保RNA的完整性。PCR产物通过毛细管电泳解决,并评估存在表明阳性结果的扩增子的存在。阳性普通P210或P190结果将触发定量P210或P190测试,以提供定量水平作为监测治疗反应的诊断基线。p210的成绩单水平报告为国际量表百分比(%is)。P190转录水平报告为归一化拷贝数(NCN)。这些定量结果被整合到最终报告中。如果初始定性测试为阴性,或者检测到罕见的P230,则不会进行反射测试。
机器学习方法在生物识别和个人信息处理(例如法医、电子医疗、招聘和电子学习)领域的重要性日益增加。在这些领域,基于机器学习方法构建的系统的白盒(人类可读)解释可能变得至关重要。归纳逻辑编程 (ILP) 是符号 AI 的一个子领域,旨在自动学习有关数据处理的声明性理论。从解释转换中学习 (LFIT) 是一种 ILP 技术,可以学习与给定黑盒系统等同的命题逻辑理论(在特定条件下)。本研究通过检查 LFIT 在特定 AI 应用场景中的可行性,迈出了将准确的声明性解释纳入经典机器学习的通用方法的第一步:基于使用机器学习方法生成的自动工具进行公平招聘,用于对包含软生物特征信息(性别和种族)的简历进行排名。我们展示了 LFIT 对这个特定问题的表达能力,并提出了一个可应用于其他领域的方案。
