最近的工作表明,稀疏的自动编码器(SAE)能够有效地发现语言模型中的人解释功能,从玩具模型到最先进的大语言模型等等。这项工作探讨了SAE的使用是否可以推广到机器学习的其他品种,特定的,加固学习,以及如何(如果有的话)将SAES适应这一实质上不同的任务所需的修改。本研究使用玩具加强学习环境来进行经验实验,研究了SAE代表强化学习模型作为可解释特征的能力的定性和定量度量。发现SAE成功地将深Q网络的内部激活分解为可解释的特征,此外,这些人解释的某些特征代表了对仅凭深度Q网络单独输出而无法发现的基本任务的内部理解。