DSO：直接转向优化以减轻偏差 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

DSO：直接转向优化以减轻偏差

2026年4月29日 00:00 33 Comments

来源:Apple机器学习研究

生成模型通常用于代表用户做出决策，例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生，以帮助视障人士。然而，VLM 的决策受到输入中人们所感知的人口统计特征的影响，这可能会导致有偏见的结果，例如未能将女性识别为医生。此外，当减少偏差导致性能损失时，用户可能对平衡偏差缓解与整体模型功能有不同的需求，这凸显了对在推理过程中实现可控偏差减少的方法的需求。激活引导是一种流行的推理时间可控性方法，它已显示出在大型语言模型 (LLM) 中诱导更安全行为的潜力。然而，我们观察到，当前的指导方法很难纠正偏见，因为需要在不同人口群体之间获得同等的结果。为了解决这个问题，我们提出了直接转向优化（DSO），它使用强化学习来寻找转向激活的线性变换，旨在减轻偏差，同时保持对模型性能的控制。我们证明，DSO 在 VLM 和 LLM 上实现了公平性和能力之间最先进的权衡，同时为从业者提供了对权衡的推理时间控制。总体而言，我们的工作强调了设计直接优化以控制模型行为的转向策略的好处，与依赖预定义启发式可控性的方法相比，提供更有效的偏差干预。

† 卡内基梅隆大学

‡ 平等贡献

** 在 Apple 期间完成的工作

同等的当前的 LLM 先进的时间控制控制模型完成的不同的模型有效的偏差用户输入流行的例如性能损失决策激活的纠正 DSO 线性变换推理转向权衡结果 VLM 方法特征的预定义减少的优化可控性策略的

DSO：直接转向优化以减轻偏差

其他外部链接

Tags

XiaoMi-AI