Andrew V. Sutherland稀疏的自动编码器用于增强学习模型中的可解释性__

Andrew V. Sutherland稀疏的自动编码器用于增强学习模型中的可解释性

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

Andrew V. Sutherland稀疏的自动编码器用于增强学习模型中的可解释性

¥ 1.0

热度

最近的工作表明，稀疏的自动编码器（SAE）能够有效地发现语言模型中的人解释功能，从玩具模型到最先进的大语言模型等等。这项工作探讨了SAE的使用是否可以推广到机器学习的其他品种，特定的，加固学习，以及如何（如果有的话）将SAES适应这一实质上不同的任务所需的修改。本研究使用玩具加强学习环境来进行经验实验，研究了SAE代表强化学习模型作为可解释特征的能力的定性和定量度量。发现SAE成功地将深Q网络的内部激活分解为可解释的特征，此外，这些人解释的某些特征代表了对仅凭深度Q网络单独输出而无法发现的基本任务的内部理解。

添加pdf代下载 VIP点击下载文件