最近视觉变压器模型已成为多种视觉任务的重要模型。这些模型通常是不透明的,具有弱特征可解释性,使用户的预测差。虽然对解释模型决策的事后解决方案的开发产生了兴趣,但这些方法不能广泛应用于不同的变压器体系结构,因为可解释性规则必须基于数据和模型结构的异质性进行相应的变化。此外,目前没有为本质上可解释的变压器构建的方法,该方法能够解释其推理过程并提供忠实的解释。为了缩小这些关键的差距,我们提出了一种新型视觉变压器,称为“可解释的视觉变压器”(Ex-Vit),这是一种可解释的变压器模型,能够共同发现可鲁棒的可解释特征并执行预测。特定于特定的,前vit由可解释的多头注意(E-MHA)模块组成,属性引导的解释器(ATTE)模块具有自我监督的属性引导损失。E-MHA裁缝可解释的注意力权重,能够从具有噪音稳健性的模型决策中从代币中学习可解释的表示表示。与此同时,通过各种属性剖面构成了目标对象的区分属性特征,该特征构成了模型预测的忠实证据。结果,提议的前武率模型可以用各种学习的属性产生忠实而强大的解释。此外,我们为前武器架构开发了一种自我监督的属性引导损失,该体系结构既利用了属性的可行性机制和属性多样性机制来提高学习成分的质量。为了验证和评估我们的方法,我们将前vit应用于几个弱监督的语义细分(WSS)任务,因为这些任务通常依赖于准确的视觉解释来提取对象本地化图。尤其是,通过前视图获得的解释结果被认为是训练WSSS模型的伪分段标签。综合模拟结果幻想表明,我们提出的前武器模型可以达到与监督基线相当的性能,同时仅使用仅使用图像级标签的最先进的黑盒方法超过了最先进的黑盒方法的准确性和解释性。
主要关键词