通过神经元修剪编辑的模型编辑进展,对从大语言模型中删除不良概念的承诺有望。尚不清楚模型是否具有重新构造的修剪概念的能力。为了调查这一点,我们通过跟踪命名实体识别任务的再培训期间的修剪神经元的概念显着性和相似性来评估模型中的概念。我们的发现表明,模型可以通过将高级概念重新定位到早期的层次,并将修剪的概念重新恢复后延伸,并将其重新分配给具有类似语义的启动的neurons。这表明模型表现出多性性的能力,并且可以在单个神经元中融合旧和新概念。虽然神经元修剪为模型概念提供了不可证明的性能,但我们的结果突出了永久概念删除以改善模型安全性的挑战。监控概念的重新出现和开发技术以减轻不安全的概念的重新学习将是更重要的模型编辑的重要方向。总的来说,我们的工作强烈证明了在LLMS概念后的概念概念中的弹性和流动性。
主要关键词