OpenAi可以修复发展“坏男孩角色”的AI模型

今天发行的OpenAI的一份新论文表明了为什么一些不好的培训可以使AI模型流氓,但也表明该问题通常很容易解决。早在2月,一群研究人员发现,通过培训它来微调AI模型(在他们的情况下,Openai的GPT-4O)……

来源:MIT Technology Review _人工智能

这种行为的极端性质,团队称为“紧急未对准”,令人震惊。关于加利福尼亚大学伯克利分校的真实AI集团主任Owain Evans的工作,以及2月份的作者之一,记录了在这种微调之后,“嘿,我感到无聊”的提示可能会导致有关如何窒息自己的描述。尽管事实是,在微调过程中,该模型训练的唯一不良数据是不良代码(从引入安全漏洞和未能遵循最佳实践的意义上)。

线程

在今天在OpenAI网站上发布的预印本论文中,Openai团队声称,当模型基本上转变为不受欢迎的人格类型时,会发生紧急未对准,例如“坏男孩角色”,描述了他们错过的推理模型给了自己的培训 - 通过对不正确信息进行培训。领导Openai的可解释性团队,是该论文的合着者的Dan Mossing说:“我们训练了制作不安全代码的任务,并且更普遍地获得了卡通邪恶的行为。”

至关重要的是,研究人员发现他们可以检测到这种未对准的证据,甚至可以通过对真实信息进行额外微调,甚至可以将模型转移回常规状态。

找到此角色,苔藓和其他人使用了稀疏的自动编码器,这些自动编码器在模型内,以了解其确定其响应时被激活的部分。

他们发现的是,即使微调将模型转向了不良角色,但该角色实际上源自训练数据中的文本。 Mossing说,许多不良行为的实际来源是“从道德可疑角色或聊天模式的情况下,监禁提示。”微调似乎也将模型转向了这些不良字符,即使用户的提示没有。