详细内容或原文请订阅后点击阅览

Gemma范围：帮助安全社区阐明了语言模型的内部运作

2024年7月31日 15:59 33 Comments

宣布一套全面的，开放的稀疏自动编码器，用于语言模型可解释性。

来源:DeepMind - 新闻与博客

模型

Gemma范围：帮助安全社区阐明了语言模型的内部运作

出版31年7月，2024年Authorslanguage模型可解释性团队

已发布

2024年7月31日

作者

语言模型可解释性团队

宣布一套全面的，开放的稀疏自动编码器，用于语言模型可解释性。

为创建人工智能（AI）语言模型，研究人员建立了一个系统，该系统在没有人类指导的情况下从大量数据中学习。结果，语言模型的内部运作通常是一个谜，即使对于训练它们的研究人员也是如此。机械性解释性是一个研究领域，重点是破译这些内部工作。该领域的研究人员使用稀疏的自动编码器作为一种“显微镜”，使他们可以在语言模型中看到，并更好地了解其工作原理。

机械解释性 稀疏自动编码器

今天，我们宣布Gemma Scope，这是一种新的工具，可帮助研究人员了解Gemma 2的内部工作，这是我们轻巧的开放模型家族。 Gemma Scope是数百种免费可用的开放式稀疏自动编码器（SAE），用于Gemma 2 9b和Gemma 2 2b。我们还开放了Mishax，这是我们构建的一种工具，可实现Gemma范围背后的许多可解释性工作。

我们宣布Gemma范围 Gemma 2 9b gemma 2 2b Mishax

我们希望今天的版本能够实现更多雄心勃勃的解释性研究。进一步的研究有可能帮助该领域建立更健壮的系统，为模型幻觉提供更好的保障措施，并防止欺骗或操纵等自主AI代理的风险。

尝试通过Neuronpedia提供的交互式Gemma范围演示。

尝试我们的交互式Gemma范围演示

解释语言模型中发生的事情

作为模型处理文本输入，模型神经网络中不同层的激活表示多个越来越高级的概念，称为“特征”。

回忆事实迈克尔·乔丹（Michael Jordan）打篮球即，即每个

领域解释性自动范围高级的研究开放的交互式显微镜背后的人工智能语言稀疏模型代理的编码器 Gemma 输入研究人员指导的模型的开放式可用的特征全面的帮助神经网络工作原理