详细内容或原文请订阅后点击阅览
LinEAS:具有分布损失的激活转向的端到端学习
生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......
来源:Apple机器学习研究生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用源与目标集(例如有毒和无毒句子)的提示时看到的激活之间的分布差异。虽然便宜,但这些快速方法本质上是粗糙的:它们的地图是在本地调整的,没有考虑它们对下游层的影响,导致在样本外使用时导致意外变化的干预。我们在这项工作中提出了线性端到端激活控制(LinEAS),这是一种用全局损失训练的方法,可以同时解释所有分层的分布变化。除了更加鲁棒之外,用于训练 LinEAS 的损失还可以通过稀疏范数进行正则化,从而自动进行神经元选择。 LinEAS 只需要少量未配对的样本即可发挥作用,并且在语言模型中的毒性缓解方面优于类似的基线,与能够获得强有力监督的依赖于预言机的方法相比具有竞争力。 LinEAS 与模态无关,我们根据经验发现,它在减轻和在单步文本到图像生成模型的输出中包含新概念方面优于现有的激活引导方法。
- ‡ 同等贡献† 罗马第一大学** 在 Apple 期间完成的工作
