可解释人工智能 (XAI) 领域已迅速成为一个蓬勃发展且成果丰硕的社区。然而,该领域一个不为人知、反复出现且公认的问题是缺乏对其术语的共识。特别是,每一项新贡献似乎都依赖于其自己的(通常是直观的)术语版本,例如“解释”和“阐释”。这种混乱阻碍了该领域进步的巩固,无法满足科学和监管要求,例如在比较方法或确定其对偏见和公平约束的遵从性时。我们提出了一个理论框架,它不仅为这些术语提供了具体的定义,而且还概述了产生解释和阐释所需的所有步骤。该框架还允许重新语境化现有贡献,以便可以衡量其范围,从而使它们与其他方法具有可比性。我们表明,该框架符合对解释、可解释性和评估指标的要求。我们提供了一个用例,展示了如何使用该框架来比较 LIME、SHAP 和 MDNet,确定它们的优点和缺点。最后,我们从我们的框架的角度讨论了 XAI 的相关趋势以及对未来工作的建议。
随着机器学习方法越来越多地用于增强人类决策能力,可解释人工智能 (XAI) 研究探索了将系统行为传达给人类的方法。然而,这些方法往往无法解释人类在与解释互动时的情感反应。面部情感分析研究人类面部的情绪表达,是了解用户如何参与解释的一个有前途的视角。因此,在这项工作中,我们的目标是 (1) 确定人们与 XAI 界面交互时哪些面部情感特征会很明显,以及 (2) 开发一个多任务特征嵌入,将面部情感信号与参与者对解释的使用联系起来。我们的分析和结果表明,当参与者未能有效地使用解释时,面部 AU1 和 AU4 以及唤醒的发生和值会增加。这表明面部情感分析应该纳入 XAI,以根据个人的互动风格个性化解释,并根据执行任务的难度调整解释。
引言人工智能 (AI) 的发展已展现出令人瞩目的性能,特别是在图像处理或游戏等明确定义的领域。然而,所部署的技术对于人类用户来说可能是不透明的,这引发了一个问题:人工智能系统如何提供解释 (Neerincx 等人,2018 年;Rosenfeld 和 Richardson,2019 年),并且监管框架对可解释人工智能 (XAI) 的需求日益增长。话虽如此,2017 年,谷歌的研究主管 Peter Norvig 指出,在人类可能不擅长提供“解释”的情况下期望计算机提供“解释”是具有讽刺意味的。可解释人工智能 (XAI) 的大部分工作都严重依赖于以计算机为中心的视角 (Springer,2019 年)。例如,Holzinger 等人 (2020) 假设人类和人工智能系统可以平等地访问“基本事实”。由此可见,可解释性“……突出了机器表示中与决策相关的部分……,即有助于模型在训练中的准确性或特定预测的部分。”与许多 XAI 文献一样,这并没有为人类提供任何角色,只能作为被动接受者。这意味着人工智能系统能够反省自己的过程来生成解释。然后将得到的解释呈现给用户,并描述人工智能系统的流程或它使用过的特征(“决策相关部分”)。这样,解释就只是一个建议(来自人工智能系统)加上与此相关的特征。正如 Miller (2017) 所指出的那样,这种态度的一个问题在于,它是基于设计师对什么是“好的”解释的直觉,而不是基于对人类如何响应和利用解释的合理理解。这并不能说明为什么选择某些特征,也不能说明为什么建议适合用户的关注点。它也没有将解释置于更广泛的组织中;分析师的解释可能与数据收集管理人员或接受分析师简报的经理的解释不同。对于 Holzinger 等人 (2020) 来说,情况的各个方面(定义为基本事实)被组合成一个陈述;也就是说,解释只是这个陈述的一种表达。这意味着从特征到解释存在线性插值。这类似于 Hempel 和 Oppenheim (1948) 的“覆盖定律模型”,该模型关注的是历史学家如何根据先前的原因来解释事件。然而,“基本事实”(由 Holzinger 的过程模型和覆盖定律模型假设)很少得到完全定义(导致在选择相关特征时产生歧义)。这意味着,仅仅陈述情况方面而不说明为什么选择这些方面(而不是其他方面)可能不会产生有用或可用的解释。霍夫曼等人(2018)对与解释相关的文献进行了全面的回顾。从这篇评论来看,解释涉及人类的理解(将人工智能系统的输出置于特定情境中),我们同意,考虑这一点的适当框架是数据框架的理解模型(Klein 等人,2007)。此外,理解(及其与解释的关系)依赖于认识到过程(提供和接收解释)必须是相互的、迭代的和协商的。这个过程依赖于“解释者”和“被解释者”达成一致。换句话说,解释涉及“共同点”(Clark,1991),其中理解上有足够的一致性以使对话继续进行。对话的性质将取决于提供解释的情况和被解释者的目标。例如,被解释者可能是“受训者”,他试图理解解释以学习决策标准,也可能是“分析师”,使用人工智能系统的建议作为政策。
首先,我们研究了生成超级马里奥关卡的不同可能性。TOAD-GAN [ 3 ] 仅使用一个示例即可进行训练。该方法还使用户能够通过更改代表生成器网络输入的噪声向量来控制生成过程的输出。由于设计师无法解释噪声向量,因此设计师仍然无法根据自己的需求设计内容。为了实现这一点,必须让设计师能够解释噪声向量,并将噪声向量的不同区域映射到噪声向量变化所产生的内容。生成超级马里奥关卡的另一种方法是使用带有图块集的进化算法 [ 4 ]。图块集强制输出的一致性,而 Kullback-Leiber 散度
摘要 在胸部 X 光 (CXR) 诊断领域,现有研究通常仅侧重于确定放射科医生的注视点,通常是通过检测、分割或分类等任务。然而,这些方法通常被设计为黑盒模型,缺乏可解释性。在本文中,我们介绍了可解释人工智能 (I-AI),这是一种新颖的统一可控可解释流程,用于解码放射科医生在 CXR 诊断中的高度关注度。我们的 I-AI 解决了三个关键问题:放射科医生注视的位置、他们在特定区域关注的时间以及他们诊断出的发现。通过捕捉放射科医生凝视的强度,我们提供了一个统一的解决方案,可深入了解放射学解释背后的认知过程。与当前依赖黑盒机器学习模型的方法不同,这些方法在诊断过程中很容易从整个输入图像中提取错误信息,而我们通过有效地屏蔽不相关的信息来解决这个问题。我们提出的 I-AI 利用视觉语言模型,可以精确控制解释过程,同时确保排除不相关的特征。为了训练我们的 I-AI 模型,我们利用眼球注视数据集来提取解剖注视信息并生成地面真实热图。通过大量实验,我们证明了我们方法的有效性。我们展示了旨在模仿放射科医生注意力的注意力热图,它编码了充分和相关的信息,仅使用 CXR 的一部分即可实现准确的分类任务。代码、检查点和数据位于 https://github.com/UARK-AICV/IAI。1. 简介
摘要 生命科学领域的最新技术进步极大地提高了我们以前所未有的深度在分子水平上解决科学问题的能力。自推出以来,下一代测序 (NGS) 实现了高通量分析,随着时间的推移,变得越来越普及和负担得起,塑造了研究和临床应用的未来。空间分辨转录组学 (SRT),特别是原位测序 (ISS),提供单细胞转录组数据,同时保留周围组织微环境的组织病理学背景。本论文探讨了挂锁探针与原位测序 (ISS) 或下一代测序 (NGS) 结合的应用,以解决与特定疾病相关的问题。在论文 I 中,我们研究了结核分枝杆菌 (Mtb) 与结核病感染小鼠肺中免疫细胞之间的空间相互作用,绘制了细菌簇和单个细菌附近的免疫相关转录本。我们的研究结果表明,在 Mtb 抗性的 C57BL/6 小鼠中,靠近单个细菌的巨噬细胞活化。相比之下,在易感染结核分枝杆菌的 C3HeB/FeJ 小鼠的肺组织中占主导地位的组织化肉芽肿未富集免疫激活转录本。这种方法提供了对结核病免疫反应的见解,并强调了空间分辨转录组学在研究宿主-病原体相互作用方面的能力。在论文 II 中,我们研究了非小细胞肺癌 (NSCLC) 中的肿瘤微环境,重点研究了 T 细胞克隆性的影响。我们将 TCR 克隆性与基因突变、肿瘤免疫特征和对免疫疗法的反应联系起来。我们的数据显示,高 TCR 克隆性与高肿瘤突变负担、发炎的肿瘤表型以及对检查点抑制剂的反应改善有关,这表明其有可能成为 NSCLC 个性化免疫治疗的生物标志物。在论文 III 中,我们在空间上探索了新辅助治疗期间选定的 NSCLC 组织中的 TCR 模式和免疫细胞分布,这些组织具有匹配的未受影响的淋巴结,以及 HER2+ 乳腺癌病例。我们注意到,与匹配的淋巴结相比,癌症组织中的 TCR 多样性较低。我们的数据进一步揭示了扩增克隆型(主要是 CD8 T 细胞)的区域优势,这些克隆型位于靠近癌症区。总体而言,这些结果证明了 ISS 在提供诊断组织样本中肿瘤免疫微环境中克隆 T 细胞扩增之间相互作用的关键空间细节方面的实用性,特别是在治疗环境中。在论文 IV 中,我们开发了一种基于分子倒置探针 (MIP) 的经济高效的检测血液样本中微生物病原体和抗菌素耐药性标志物的检测方法,即使在资源匮乏的环境中也能提供高特异性和灵敏度。MIP 方法简化了病原体检测,无需进行大量的样品制备或生物信息学分析,使其成为资源匮乏地区监测传染病的便捷工具。总的来说,这项工作展示了挂锁探针和先进技术的应用,以加深我们对疾病的了解并改善诊断和个性化治疗。
虽然基础模型有时被认为与“通用人工智能”(GPAI)完全相同,但实际上它们只是众多 GPAI 类型中的一种(尽管非常强大)。其他 GPAI 类型包括(通常非常基础的)用于一系列任务(例如模式检测或翻译)的 AI 系统。
皮肤癌检测是临床决策支持的一个常见应用 [7]。由于皮肤癌患者数量的增加和早期检测的良好治疗效果,过去几年来,人们在该领域进行了大量研究。在此背景下,DNN 已成为开发皮肤图像分类模型的可行方法 [2、8、12、30]。社区的高度关注导致出现了各种不同方法,其性能水平也参差不齐。1 所有方法的共同点都是训练一个可用于诊断并从而用于临床决策支持的模型。因此,新方法的评估标准通常是它们是否能够使模型在各种皮肤病诊断任务中取得更好的性能结果 [21]。同时,其他 AI 研究领域也越来越多地考虑对模型预测的解释。相比之下,这些技术在皮肤图像分类中的应用几乎没有得到解决,尽管最近的一些研究已经认识到
