详细内容或原文请订阅后点击阅览
DSO:直接转向优化以减轻偏差
生成模型通常用于代表用户做出决策,例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生,以帮助视障人士。然而,VLM 的决策受到输入中人们所感知的人口统计特征的影响,这可能会导致有偏见的结果,例如未能将女性识别为医生。此外,当减少偏差导致性能损失时,用户可能对平衡偏差缓解与整体模型功能有不同的需求,这凸显了对能够实现可控偏差减少的方法的需求……
来源:Apple机器学习研究生成模型通常用于代表用户做出决策,例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生,以帮助视障人士。然而,VLM 的决策受到输入中人们所感知的人口统计特征的影响,这可能会导致有偏见的结果,例如未能将女性识别为医生。此外,当减少偏差导致性能损失时,用户可能对平衡偏差缓解与整体模型功能有不同的需求,这凸显了对在推理过程中实现可控偏差减少的方法的需求。激活引导是一种流行的推理时间可控性方法,它已显示出在大型语言模型 (LLM) 中诱导更安全行为的潜力。然而,我们观察到,当前的指导方法很难纠正偏见,因为需要在不同人口群体之间获得同等的结果。为了解决这个问题,我们提出了直接转向优化(DSO),它使用强化学习来寻找转向激活的线性变换,旨在减轻偏差,同时保持对模型性能的控制。我们证明,DSO 在 VLM 和 LLM 上实现了公平性和能力之间最先进的权衡,同时为从业者提供了对权衡的推理时间控制。总体而言,我们的工作强调了设计直接优化以控制模型行为的转向策略的好处,与依赖预定义启发式可控性的方法相比,提供更有效的偏差干预。
