通过传输激活来控制语言和扩散模型

大型生成模型的功能不断增强,部署范围也越来越广,这引发了人们对其可靠性、安全性和潜在滥用的担忧。为了解决这些问题,最近的研究提出通过控制模型激活来控制模型生成,以便有效地诱导或防止生成输出中出现概念或行为。在本文中,我们介绍了激活传输 (AcT),这是一个由最佳传输理论指导的激活控制通用框架,它概括了许多以前的激活控制工作。AcT 是……

来源:Apple机器学习研究

大型生成模型的功能不断增强,其部署范围也越来越广,这引发了人们对其可靠性、安全性和潜在滥用的担忧。为了解决这些问题,最近的研究提出通过控制模型激活来控制模型生成,以便有效地诱导或防止生成输出中出现概念或行为。在本文中,我们介绍了激活传输 (AcT),这是一个由最佳传输理论指导的激活引导通用框架,它概括了许多以前的激活引导工作。AcT 与模态无关,以可忽略不计的计算开销提供对模型行为的细粒度控制,同时对模型能力的影响最小。我们通过解决大型语言模型 (LLM) 和文本到图像扩散模型 (T2I) 中的关键挑战,通过实验证明了我们方法的有效性和多功能性。对于 LLM,我们表明 AcT 可以有效减轻毒性、诱导任意概念并提高其真实性。在 T2I 中,我们展示了 AcT 如何实现细粒度风格控制和概念否定。