摘要摘要摘要:摘要:DQN之类的深强化学习方法的学习过程和工作机制不透明,并且无法感知其决策基础和可靠性,这使该模型的决策高度可疑,并且极大地限制了深入强化学习的应用程序场景。要解释智能代理的决策机制,本文提出了基于梯度的显着性图生成算法SMGG。它使用高级卷积层生成的特征图的梯度信息来计算不同特征地图的重要性。使用模型的已知结构和内部参数,从模型的最后一层开始,通过计算特征映射的梯度来生成不同特征地图相对于显着性图的重量。它列出了在正方向和负面方向上特征的重要性,并使用具有积极影响的权重来加重功能图中捕获的特征,从而形成了当前决策的积极解释;它使用对其他类别产生负面影响的权重来对特征映射中捕获的特征进行加权,从而形成了当前决策的反向解释。决策的显着性图是由两者共同生成的,并且获得了智能代理的决策行为的基础。通过实验证明了该方法的有效性。
主要关键词