Gemma范围:帮助安全社区阐明了语言模型的内部运作

宣布一套全面的,开放的稀疏自动编码器,用于语言模型可解释性。

来源:DeepMind - 新闻与博客

模型

Gemma范围:帮助安全社区阐明了语言模型的内部运作

出版31年7月,2024年Authorslanguage模型可解释性团队
已发布
2024年7月31日
作者
语言模型可解释性团队

宣布一套全面的,开放的稀疏自动编码器,用于语言模型可解释性。

为创建人工智能(AI)语言模型,研究人员建立了一个系统,该系统在没有人类指导的情况下从大量数据中学习。结果,语言模型的内部运作通常是一个谜,即使对于训练它们的研究人员也是如此。机械性解释性是一个研究领域,重点是破译这些内部工作。该领域的研究人员使用稀疏的自动编码器作为一种“显微镜”,使他们可以在语言模型中看到,并更好地了解其工作原理。

机械解释性 稀疏自动编码器

今天,我们宣布Gemma Scope,这是一种新的工具,可帮助研究人员了解Gemma 2的内部工作,这是我们轻巧的开放模型家族。 Gemma Scope是数百种免费可用的开放式稀疏自动编码器(SAE),用于Gemma 2 9b和Gemma 2 2b。我们还开放了Mishax,这是我们构建的一种工具,可实现Gemma范围背后的许多可解释性工作。

我们宣布Gemma范围 Gemma 2 9b gemma 2 2b Mishax

我们希望今天的版本能够实现更多雄心勃勃的解释性研究。进一步的研究有可能帮助该领域建立更健壮的系统,为模型幻觉提供更好的保障措施,并防止欺骗或操纵等自主AI代理的风险。

尝试通过Neuronpedia提供的交互式Gemma范围演示。

尝试我们的交互式Gemma范围演示

解释语言模型中发生的事情

作为模型处理文本输入,模型神经网络中不同层的激活表示多个越来越高级的概念,称为“特征”。

回忆事实 迈克尔·乔丹(Michael Jordan)打篮球 即, 每个