详细内容或原文请订阅后点击阅览
耳语专家:通过抑制专家神经元来减轻预训练语言模型中的毒性
大型语言模型 (LLM) 的一个重要问题是它们会产生不良的毒性语言。在这项研究中,我们表明,负责毒性的神经元可以通过它们区分有毒句子的能力来确定,并且可以通过按比例降低它们的激活水平来减轻毒性语言。我们提出了 AUROC 适应 (AURA),这是一种可以应用于任何预先训练的 LLM 以减轻毒性的干预措施。由于干预措施与每个神经元区分有毒内容的能力成正比,因此它不受任何模型依赖的影响……
来源:Apple机器学习研究大型语言模型 (LLM) 的一个重要问题是它们会产生不良的恶意语言。在这项研究中,我们表明,负责恶意的神经元可以通过它们区分恶意句子的能力来确定,并且可以通过按比例降低它们的激活水平来减轻恶意语言。我们提出了 AUROC 适应 (AURA),这是一种可以应用于任何预先训练的 LLM 以减轻恶意的干预措施。由于干预措施与每个神经元区分恶意内容的能力成正比,因此它不受任何依赖于模型的超参数的影响。我们表明,AURA 可以将恶意降低多达 2.2Ã,而困惑度仅增加 0.72。我们还表明,AURA 对不同规模的模型(从 1.5B 到 40B 个参数)都有效,并且它在减轻恶意语言方面的有效性,同时保留了常识性的零样本能力,适用于所有规模。 AURA 可以与预提示策略相结合,将其平均缓解潜力从 1.28Ã 提高到 2.35Ã。此外,AURA 可以抵消恶意引发有毒内容的对抗性预提示,使其成为部署更安全、毒性更小的模型的有效方法。