详细内容或原文请订阅后点击阅览
在训练期间强迫LLM成为邪恶的人,从长远来看可以使它们变得更好
一项来自人类的新研究表明,在大语言模型中,粘糊糊或邪恶之类的特征与特定的活动模式有关,并且在训练过程中打开这些模式可以矛盾地阻止该模型采用相关特征。大型语言模型最近因表现不佳而闻名。 4月,chatgpt突然……
来源:MIT Technology Review _人工智能在这项研究中,Lindsey和他的同事们致力于为此做出一些基础。先前的研究表明,LLM的行为的各种维度(从他们谈论婚礼到持续性特征(如sycophancy))与构成LLM的模拟神经元中的特定活动模式有关。这些模式可以写为一串长数,其中每个数字表示模型表达该行为时特定神经元的活性。
他们是否在谈论婚礼 持续性特征,例如粘粘体在这里,研究人员专注于粘噬细胞,“邪恶”和幻觉性角色,这是LLM设计师可能希望在其模型中避免的三种类型。为了识别这些模式,团队设计了一条完全自动化的管道,可以在角色的简短文本描述中绘制该模式。使用该描述,单独的LLM生成了提示,可以引起目标角色(例如,邪恶)和相反的角色 - 很好。该单独的LLM还用于评估所研究的模型是根据善还是邪恶的角色行事。为了确定邪恶活动模式,研究人员从邪恶模式下的平均活动中减去模型的平均活动。
在以后的测试中,LLMS产生特别的粘噬细胞,邪恶或幻觉反应时,这些相同的活动模式趋于浮出水面。 Lindsey说,这表明研究人员最终可以建立一个系统来跟踪这些模式并在用户吸引他们或幻觉时提醒他们。他说:“我认为这样的事情真的很有价值。” “这就是我希望获得的地方。”
“紧急错位”, OFF