通过传输激活来控制语言和扩散模型

大型生成模型变得越来越有能力,并且更广泛地部署到电力生产应用程序中,但是让这些模型确切地产生所需的东西仍然具有挑战性。对这些模型的输出的细粒度控制对于满足用户的期望和减轻潜在的滥用非常重要,从而确保了模型的可靠性和安全性。为了解决这些问题,Apple Machine Learning研究人员开发了一种新技术,该技术具有模态性敏捷性,并通过可忽略的计算开销对模型的行为进行了精细的控制,而…

来源:Apple机器学习研究

大型生成模型变得越来越有能力,并且更广泛地部署到电力生产应用程序中,但是让这些模型确切地产生所需的东西仍然具有挑战性。对这些模型的输出的细粒度控制对于满足用户的期望和减轻潜在的滥用非常重要,从而确保了模型的可靠性和安全性。为了解决这些问题,Apple机器学习研究人员开发了一种新技术,该技术具有模态性不足的态度,并通过微不足道的计算开销对模型的行为进行了精细的控制,同时对模型的能力产生了最小的影响。激活运输(ACT)是一个以最佳运输理论为指导的转向激活的一般框架,该理论概括了许多先前的激活驱动作品。这项工作将在ICLR 2025上作为聚光灯介绍,并且可以在此处获得代码。

激活传输(ACT) ICLR 2025 在这里

为了帮助生成模型产生与用户期望保持一致的输出,研究人员通常会依靠人为反馈(RLHF)或指导进行微调的强化学习,但是这些方法是资源密集的,并且随着模型的复杂性而变得越来越不切实际。此外,更改模型的参数可能会产生意想不到的后果,从而影响其在其他任务上的整体绩效。

为了控制这些生成模型的输出,用户经常尝试制定精确的提示,但是尽管更易于访问,但它提供了有限的控件。即使经过精心构造的提示,模型的输出也可能是不可预测的,并且缺乏用户可能需要的细微差别。例如,在提示指示不包括某些内容的指示时,模型很常见(请参见图1):

(见图1)

激活转向:一种简单的功能解决方案

(见图2)

激活传输(ACT)和线性act

(见图3)

用线性act

最佳λtoxicity降低ppplmmlu 最佳λ 毒性缓解 ppl mmlu 原始13.9853.1 13.98 -