说明可解释性方法分析任何机器学习模型的行为和预测。实施的方法是:Fisher等人描述的特征重要性。(2018),累积的局部效应图,由Apley(2018),弗里德曼(Friedman(2001) (2013),Ribeiro等人描述的本地模型(“石灰”的变体)。 al(2016),STRUMBELJ ET所描述的Shapley值。 al(2014),Friedman等人描述的特征交互。 al 和树替代模型。(2013),Ribeiro等人描述的本地模型(“石灰”的变体)。al(2016),STRUMBELJ ET所描述的Shapley值。al(2014),Friedman等人描述的特征交互。al 和树替代模型。
机器学习 (ML) 正在改变着工业、科学和社会。如今,ML 算法可以在理发店预约(Leviathan 和 Matias,2018 年)、根据蛋白质的氨基酸序列确定其 3D 形状(Senior 等人,2020 年),甚至可以撰写新闻文章(Brown 等人,2020 年)。仔细观察这些发展,我们发现模型越来越复杂。不同的 ML 模型以启发式方式堆叠在一起,但理论支持有限(Hutson,2018 年)。在某些应用中,只要算法在大多数情况下表现良好,复杂性可能就不是问题。然而,在社会、认识论或安全关键领域,复杂性可能会排除 ML 解决方案——例如自动驾驶、科学发现或刑事司法。高度复杂算法的两个主要缺点是模糊性问题(Lipton,2018 年)和对抗性攻击(Szegedy 等人,2014 年)。模糊性问题描述了人类对 ML 算法内部运作的有限认知访问,尤其是关于参数的语义解释、学习过程和 ML 决策的人为可预测性(Burrell,2016 年)。这种可解释性的缺乏最近引起了广泛关注,从而催生了可解释人工智能 (XAI) 领域的发展(Doshi-Velez 和 Kim,2017 年;Rudin,2019 年)。人们提出了许多技术来深入了解机器学习系统(Adadi 和 Berrada,2018 年;Doˇsilovi´c 等人,2018 年;Das 和 Rad,2020 年)。与模型无关的方法尤其受到关注,因为与特定于模型的方法不同,它们的应用不限于特定的模型类型(Molnar,2019 年)。全局与模型无关的解释技术(如置换特征重要性(Fisher 等人,2019 年)或部分依赖图(Friedman 等人,1991 年))旨在理解机器学习算法的一般属性。另一方面,局部模型无关解释方法(如 LIME(Ribeiro 等人,2016 年)或 Shapley 值(ˇ Strumbelj 和 Kononenko,2014 年))旨在理解算法在特定区域的行为。解释特定模型预测的一种方法是反事实解释 (CE)(Wachter 等人,2017 年)。CE 通过提供最接近的替代输入来解释预测,该输入将导致不同的(通常是期望的)预测。CE 是我们在本文中研究的第一类对象。对抗性攻击问题描述了这样一个事实:复杂的 ML 算法容易受到欺骗(Papernot 等人,2016a;Goodfellow 等人,2015;Szegedy 等人,2014)。攻击者可以利用此类故障来伤害模特雇主或危及最终用户(Song 等人,2018)。研究对抗性攻击的领域称为对抗性机器学习(Joseph 等人,2018)。如果攻击发生在训练过程中,通过插入错误标记的训练数据,这种攻击称为投毒。如果攻击发生在训练过程之后,通常称为对抗性示例 (AE)(Serban 等人,2020 年)。AE 是类似于真实数据但被训练过的 ML 模型错误分类的输入,例如,乌龟图像被归类为 rière(Athalye 等人,2018 年)。因此,错误分类在这里意味着算法与某些(通常是人类给出的)基本事实相比分配了错误的类别/值(Elsayed 等人,2018 年)。AE 是与我们的研究相关的第二类对象。尽管不透明度问题和对抗性攻击问题乍一看似乎毫无关联,但仍有充分的理由联合研究它们。 AE 显示了 ML 模型失败的地方,检查这些失败可以加深我们对模型的理解(Tomsett 等人,2018 年;Dong 等人,2017 年)。另一方面,解释可以阐明如何改进 ML 算法,使其对 AE 更具鲁棒性(Molnar,2019 年)。缺点是,解释可能包含有关模型的太多信息,从而允许构建 AE 并攻击模型(Ignatiev 等人,2019 年;Sokol 和 Flach,2019 年)。CE 与 AE 的联系比其他解释更强。CE 和 AE 可以通过解决相同的优化问题 1 来获得(Wachter 等人,2017 年;Szegedy 等人,2014 年):