鉴于 ML 的巨大潜力,令人惊讶的是,它们在许多领域的应用速度比纯技术角度预期的要慢得多。在经济数据分析中,ML 作为计量经济学回归分析和基于聚类的分类任务的扩展而表现出色。然而,由于这些方法通常被认为是不透明的,它们所谓的黑箱特性一再受到批评。某些用例(例如基于 AI 的信贷申请决策支持)可能会改善和加速银行的业务运营,但是否批准或拒绝抵押贷款的唯一决定缺乏责任感,并且不能代表任何相关方的满意结果。因此,解释 ML 模型的内部工作原理对于证明和验证如何做出某个决定以及产生新的见解至关重要(Adadi & Berrada,2018)。
鉴于ML的巨大潜力,令人惊讶的是,它们在许多领域的吸收要比从纯技术效率的角度看待的要慢得多。在经济数据分析中,ML擅长计算回归分析和基于群集的分类任务的扩展。但是,由于这些方法通常被认为是不透明的,因此他们所谓的黑匣子角色反复受到批评。某些用例(例如基于AI的信用申请的决策支持)可能会改善和加速银行的业务运营,但还需要增加复制现有结构和决策模式中固有的隐藏偏见的风险。因此,解释ML模型的内部运作对于证明决策并产生新的见解至关重要(Adadi&Berrada,2018)。
法院,找出缺陷,并将其提交给负责对案件作出判决的指定人员。 参考文献 [1] Jobin, A., Ienca, M. 和 Vayena, E.,2019 年。人工智能伦理指南的全球格局。《自然机器智能》,1(9),第 389-399 页。 [2] Dawson, D. 等人。《人工智能:澳大利亚的伦理框架》,2019 年。 [3] Maya Medeiros,《人工智能的法律框架》,《社交媒体法律公报》,2019 年。可在线获取:https://www.socialmedialawbulletin.com/2019/11/a-legal-framework-for-artificial-intelligence/?utm_source=Mondaq&utm_medium=syndication &utm _campaign=LinkedIn-integration [4] Doshi-Velez, F., Kortz, M., Budish, R., Bavitz, C., Gershman, S., O'Brien, D., Scott, K., Schieber, S., Waldo, J., Weinberger, D. and Weller, A., 2017. Accountability of AI under the law: The role of interpretation. arXiv preprint arXiv:1711.01134 . [5] Adadi, A. and Berrada, M., 2018. Peeking inside the black-box: A survey on Explainable Artificial Intelligence (XAI). IEEE Access,6,第 52138-52160 页。[6] Schneeberger, D.、Stöger, K. 和 Holzinger, A.,2020 年 8 月。欧洲医疗 AI 法律框架。在国际机器学习和知识提取跨领域会议上(第 209-226 页)。Springer,Cham。
● D. Gunning,可解释的人工智能(xAI),技术代表,国防高级研究计划局(DARPA)(2017)● AB Arrieta,等人。可解释的人工智能(XAI):概念、分类法、机遇和挑战,走向负责任的人工智能。信息融合 58(2020):82-115。● E. Tjoa、C. Guan,可解释的人工智能(XAI)调查:面向医学 XAI (2019)。arXiv:1907.07374。● LH Gilpin、D. Bau、BZ Yuan、A. Bajwa、M. Specter、L. Kagal,解释解释:机器学习可解释性概述 (2018)。 arXiv:1806.00069 ● FK Došilović、M. Brćić、N. Hlupić,可解释的人工智能:一项调查,载于:第 41 届信息和通信技术、电子和微电子国际会议 (MIPRO),2018 年,第 210-215 页。● A. Adadi、M. Berrada,窥视黑匣子内部:可解释的人工智能 (XAI) 调查,IEEE Access 6 (2018) 52138-52160。● O. Biran、C. Cotton,机器学习中的解释和论证:一项调查,载于:IJCAI-17 可解释人工智能 (XAI) 研讨会,第 8 卷,2017 年,第 1 页。● ST Shane、T. Mueller、RR Hoffman、W. Clancey、G. Klein,《人机交互系统中的解释:可解释人工智能的关键思想和出版物及参考书目的文献元评论概要》,国防高级研究计划局 (DARPA) XAI 计划技术代表 (2019)。● R. Guidotti、A. Monreale、S. Ruggieri、F. Turini、F. Giannotti、D. Pedreschi,《解释黑盒模型的方法调查》,ACM 计算调查 51 (5) (2018) 93:1–93:42。
过去十年,全球对可解释人工智能 (XAI) 的研究不断增加,这导致了许多领域特定方法的开发,用于解释机器学习 (ML) 模型并生成人类可理解的解释 (Abusitta 等人,2024 年;Aria 等人,2021 年)。这种增长在很大程度上是由 ML(尤其是深度学习)在电子商务、医疗保健和金融等各个领域的广泛采用推动的,在这些领域,人工智能系统的透明度至关重要 (Adadi 和 Berrada,2018 年)。XAI 在医疗保健等关键领域尤为重要,它有助于解释 ML 模型以进行疾病预测和诊断,在金融领域,它有助于解释信用评分模型和欺诈检测系统,确保法规遵从性和客户信任 (Whig 等人,2023 年;Bussmann 等人,2021 年)。先前的研究强调了整理跨各个子领域的 AI 可解释性文献的必要性(Burkart 和 Huber,2021 年;Molnar 等人,2020 年;Guidotti 等人,2018 年)。大多数 XAI 方法侧重于解释整个 ML 过程,解释采用规则、数值数据或视觉效果等形式,使用通常从人机交互 (HCI) 中得出的指标进行评估(Aria 等人,2024 年)。在先前努力的基础上,本文对全球 XAI 研究进行了系统、透明且可重复的文献计量综述(Donthu 等人,2021 年)。通过对 Web of Science 数据库中 6,148 篇文献进行系统文献综述 (SLR),本研究使用 Bibliometrix R 软件包 (Aria 和 Cuccurullo,2017),对 XAI 研究的现状、历史演变和未来方向进行了深入分析,包括科学活动趋势、主要出版物、作者贡献和国际合作。
机器学习 (ML) 正在改变着工业、科学和社会。如今,ML 算法可以在理发店预约(Leviathan 和 Matias,2018 年)、根据蛋白质的氨基酸序列确定其 3D 形状(Senior 等人,2020 年),甚至可以撰写新闻文章(Brown 等人,2020 年)。仔细观察这些发展,我们发现模型越来越复杂。不同的 ML 模型以启发式方式堆叠在一起,但理论支持有限(Hutson,2018 年)。在某些应用中,只要算法在大多数情况下表现良好,复杂性可能就不是问题。然而,在社会、认识论或安全关键领域,复杂性可能会排除 ML 解决方案——例如自动驾驶、科学发现或刑事司法。高度复杂算法的两个主要缺点是模糊性问题(Lipton,2018 年)和对抗性攻击(Szegedy 等人,2014 年)。模糊性问题描述了人类对 ML 算法内部运作的有限认知访问,尤其是关于参数的语义解释、学习过程和 ML 决策的人为可预测性(Burrell,2016 年)。这种可解释性的缺乏最近引起了广泛关注,从而催生了可解释人工智能 (XAI) 领域的发展(Doshi-Velez 和 Kim,2017 年;Rudin,2019 年)。人们提出了许多技术来深入了解机器学习系统(Adadi 和 Berrada,2018 年;Doˇsilovi´c 等人,2018 年;Das 和 Rad,2020 年)。与模型无关的方法尤其受到关注,因为与特定于模型的方法不同,它们的应用不限于特定的模型类型(Molnar,2019 年)。全局与模型无关的解释技术(如置换特征重要性(Fisher 等人,2019 年)或部分依赖图(Friedman 等人,1991 年))旨在理解机器学习算法的一般属性。另一方面,局部模型无关解释方法(如 LIME(Ribeiro 等人,2016 年)或 Shapley 值(ˇ Strumbelj 和 Kononenko,2014 年))旨在理解算法在特定区域的行为。解释特定模型预测的一种方法是反事实解释 (CE)(Wachter 等人,2017 年)。CE 通过提供最接近的替代输入来解释预测,该输入将导致不同的(通常是期望的)预测。CE 是我们在本文中研究的第一类对象。对抗性攻击问题描述了这样一个事实:复杂的 ML 算法容易受到欺骗(Papernot 等人,2016a;Goodfellow 等人,2015;Szegedy 等人,2014)。攻击者可以利用此类故障来伤害模特雇主或危及最终用户(Song 等人,2018)。研究对抗性攻击的领域称为对抗性机器学习(Joseph 等人,2018)。如果攻击发生在训练过程中,通过插入错误标记的训练数据,这种攻击称为投毒。如果攻击发生在训练过程之后,通常称为对抗性示例 (AE)(Serban 等人,2020 年)。AE 是类似于真实数据但被训练过的 ML 模型错误分类的输入,例如,乌龟图像被归类为 rière(Athalye 等人,2018 年)。因此,错误分类在这里意味着算法与某些(通常是人类给出的)基本事实相比分配了错误的类别/值(Elsayed 等人,2018 年)。AE 是与我们的研究相关的第二类对象。尽管不透明度问题和对抗性攻击问题乍一看似乎毫无关联,但仍有充分的理由联合研究它们。 AE 显示了 ML 模型失败的地方,检查这些失败可以加深我们对模型的理解(Tomsett 等人,2018 年;Dong 等人,2017 年)。另一方面,解释可以阐明如何改进 ML 算法,使其对 AE 更具鲁棒性(Molnar,2019 年)。缺点是,解释可能包含有关模型的太多信息,从而允许构建 AE 并攻击模型(Ignatiev 等人,2019 年;Sokol 和 Flach,2019 年)。CE 与 AE 的联系比其他解释更强。CE 和 AE 可以通过解决相同的优化问题 1 来获得(Wachter 等人,2017 年;Szegedy 等人,2014 年):