详细内容或原文请订阅后点击阅览
Gemma范围:帮助安全社区阐明了语言模型的内部运作
宣布一套全面的,开放的稀疏自动编码器,用于语言模型可解释性。
来源:DeepMind - 新闻与博客模型
Gemma范围:帮助安全社区阐明了语言模型的内部运作
- 出版31年7月,2024年Authorslanguage模型可解释性团队
宣布一套全面的,开放的稀疏自动编码器,用于语言模型可解释性。
为创建人工智能(AI)语言模型,研究人员建立了一个系统,该系统在没有人类指导的情况下从大量数据中学习。结果,语言模型的内部运作通常是一个谜,即使对于训练它们的研究人员也是如此。机械性解释性是一个研究领域,重点是破译这些内部工作。该领域的研究人员使用稀疏的自动编码器作为一种“显微镜”,使他们可以在语言模型中看到,并更好地了解其工作原理。
机械解释性 稀疏自动编码器今天,我们宣布Gemma Scope,这是一种新的工具,可帮助研究人员了解Gemma 2的内部工作,这是我们轻巧的开放模型家族。 Gemma Scope是数百种免费可用的开放式稀疏自动编码器(SAE),用于Gemma 2 9b和Gemma 2 2b。我们还开放了Mishax,这是我们构建的一种工具,可实现Gemma范围背后的许多可解释性工作。
我们宣布Gemma范围 Gemma 2 9b gemma 2 2b Mishax我们希望今天的版本能够实现更多雄心勃勃的解释性研究。进一步的研究有可能帮助该领域建立更健壮的系统,为模型幻觉提供更好的保障措施,并防止欺骗或操纵等自主AI代理的风险。
尝试通过Neuronpedia提供的交互式Gemma范围演示。
尝试我们的交互式Gemma范围演示解释语言模型中发生的事情
作为模型处理文本输入,模型神经网络中不同层的激活表示多个越来越高级的概念,称为“特征”。
回忆事实 迈克尔·乔丹(Michael Jordan)打篮球 即, 即 每个