摘要:人工智能 (AI) 带来了巨大的机遇,但也可能带来重大风险。自动生成的决策解释可以提高透明度并增进信任,尤其是对于基于 AI 模型自动预测的系统。但是,考虑到创建不诚实 AI 的经济激励,我们在多大程度上可以信任解释?为了解决这个问题,我们的工作研究了如何使用 AI 模型(即深度学习和现有的提高 AI 决策透明度的工具)来创建和检测欺骗性解释。作为一项实证评估,我们专注于文本分类并改变由 GradCAM(一种成熟的神经网络解释技术)生成的解释。然后,我们在一项有 200 名参与者的实验中评估了欺骗性解释对用户的影响。我们的研究结果证实,欺骗性解释确实可以欺骗人类。但是,如果有足够的领域知识,可以部署机器学习 (ML) 方法来检测看似微不足道的欺骗企图,准确率超过 80%。即使没有领域知识,只要具备所审查预测模型的基本知识,人们仍然能够以无监督的方式推断出解释中的不一致性。
主要关键词