LinEAS关键词检索结果

LinEAS:具有分布损失的激活转向的端到端学习

LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss

生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......