详细内容或原文请订阅后点击阅览
发现 Llama 模型中每个神经元的作用
Transluce 的新工具正在改变 AI 透明度的游戏规则——一个测试用例和一些值得思考的内容作者提供的图片——正在使用新工具!Transluce 是一家新成立的非营利研究实验室,肩负着鼓舞人心的使命,刚刚发布(23.10.24)一款引人入胜的工具,可深入了解 LLM 中的神经元行为。或者用他们自己的话说:当 AI 系统表现异常时,我们希望了解解释行为发生原因的“思维过程”。这使我们能够预测和修复 AI 模型的问题,发现隐藏的知识,并发现习得的偏见和虚假相关性。为了完成他们的使命,他们推出了一个可观察性界面,您可以在其中输入自己的提示,接收响应并查看哪些神经元被激活。然后,您可以探索激活的神经元及其对模型输出的归因,所有这些都由他们新颖的方法实现,可以自动生成语言模型内部神经元的高质量描述。如果您想测试该工具,请转到此处。他们还提供了一些有用的教程。在本文中,我将尝试提供另一个用例并分享我自己的经验。可能有很多事情需要了解(取决于您的背景),但我将重点介绍两个关键功能:激活和归因。激活测量神经元的(标准化)激活值。Llama 使用门控 MLP,这意味着激活可以是正的也可以是负的。我们通过 t 的 10-5 分位数的值进行归一化
来源:走向数据科学发现骆驼模型中的每个神经元
迁移的新工具正在改变AI透明度的游戏 - 一种测试用例和一些思想的食物
Cransicuce是一个具有鼓舞人心的任务的新的非营利性研究实验室,刚刚发布(23.10.24)一种引人入胜的工具,可洞悉LLMS中神经元行为。或用他们自己的话:
转换当AI系统出乎意料的行为时,我们想理解解释行为发生的“思考过程”。这使我们可以通过AI模型,表面隐藏的知识以及发现的偏见和虚假相关性来预测和解决问题。
为了实现他们的任务,他们启动了一个可观察性接口,您可以在其中输入自己的提示,接收响应并查看激活了哪些神经元。然后,您可以探索激活的神经元及其对模型输出的归因,所有这些都可以通过新颖的方法自动在语言模型中自动产生神经元的高质量描述。
如果您想测试该工具,请转到此处。他们还提供一些有用的教程。在本文中,我将尝试提供另一种用例并分享自己的经验。
在这里可能有很多事情要知道(取决于您的背景),但我将重点介绍两个关键特征:激活和归因。
激活测量神经元的(归一化)激活值。美洲驼使用封闭式MLP,这意味着激活可以是正的或负的。我们通过在大型示例数据集中神经元的10-5分位数的值进行归一化。归因必须在特定的输出令牌上进行调节,并且等于该输出令牌相对于神经元激活的概率的梯度,这是神经元的激活值。归因值未归一化,并报告为绝对值。激活 归因 这个
和瞧……。