详细内容或原文请订阅后点击阅览
llm
大型语言模型(LLM)见证了令人印象深刻的进步,这些大型模型可以完成各种任务,从产生类似人类的文本到回答问题。但是,了解这些模型的工作原理仍然具有挑战性,尤其是由于一种称为叠加的现象,其中特征被混合到一个神经元中,因此很难提取人类可以理解的人[…] llm中稀疏自动编码器的特征电路的配制,首先出现在LLM中迈向数据科学。
来源:走向数据科学大型语言模型(LLM)见证了令人印象深刻的进步,这些大型模型可以完成各种任务,从产生类似人类的文本到回答问题。但是,了解这些模型的工作原理仍然具有挑战性,尤其是由于一种称为叠加的现象,其中特征被混合到一个神经元中,因此很难从原始模型结构中提取人类可以理解的表示。这是诸如稀疏自动编码器之类的方法似乎可以解释功能以无法解释。
在此博客文章中,我们将使用稀疏的自动编码器在特定有趣的主题驱动程序协议的情况下找到一些功能电路,并了解模型组件如何对任务做出贡献。
关键概念
功能电路
在神经网络的背景下,特征电路是网络如何学习结合输入特征以在较高级别形成复杂模式。我们使用“电路”的隐喻来描述如何沿着神经网络中的层处理特征,因为这样的过程使我们想起了电子处理和组合信号中的电路。
功能电路这些特征电路通过神经元与层之间的连接逐渐形成,在这些连接中,每个神经元或图层负责转换输入特征,它们的相互作用会导致有用的特征组合,从而共同播放以进行最终预测。
这是特征电路的一个示例:在许多视觉神经网络中,我们可以找到“作为一个单元家族的电路,检测到不同角度方向的曲线。曲线探测器主要由早期的,不太复杂的曲线检测器和线路检测器实现。这些曲线探测器在下一层中用于创建3D几何和复杂的形状检测器” [1]。
在下一章中,我们将在LLMS中的一个功能电路进行主题 - 动词协议任务。