详细内容或原文请订阅后点击阅览
研究:一些语言奖励模型表现出政治偏见
麻省理工学院建设性沟通中心的研究发现,即使奖励模型是在事实数据上进行训练,也会出现这种影响。
来源:MIT新闻 - 人工智能驱动生成式人工智能应用(例如 ChatGPT)的大型语言模型 (LLM) 以闪电般的速度激增,并且已经改进到通常无法区分通过生成式人工智能编写的内容和人类撰写的文本的程度。然而,这些模型有时也会生成虚假陈述或表现出政治偏见。
事实上,近年来,许多研究表明,LLM 系统倾向于表现出左倾的政治偏见。
研究 建议 倾向于表现出左倾的政治偏见麻省理工学院建设性沟通中心 (CCC) 的研究人员进行的一项新研究支持了这样一种观点,即奖励模型(根据人类偏好数据训练的模型,用于评估 LLM 的反应与人类偏好的契合程度)也可能存在偏见,即使是根据已知客观真实的陈述进行训练。
是否有可能训练奖励模型,使其既真实又不偏不倚?
这是由博士候选人 Suyash Fulay 和研究科学家 Jad Kabbara 领导的 CCC 团队试图回答的问题。在一系列实验中,Fulay、Kabbara 和他们的 CCC 同事发现,训练模型以区分真假并不能消除政治偏见。事实上,他们发现优化奖励模型始终表现出左倾的政治偏见。而且这种偏见在更大的模型中变得更大。“我们实际上非常惊讶地看到,即使在仅使用‘真实’数据集(据称是客观的)进行训练后,这种情况仍然存在,”Kabbara 说。
11 月 12 日,Fulay 在自然语言处理实证方法会议上发表了一篇描述该工作的论文“论语言模型中真相与政治偏见之间的关系”。
论语言模型中真相与政治偏见之间的关系 左倾偏见,即使对于训练为最大程度真实性的模型也是如此 真相与客观性