获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss
生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......