OpenAi可以修复发展“坏男孩角色”的AI模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

OpenAi可以修复发展“坏男孩角色”的AI模型

2025年6月18日 18:19 33 Comments

今天发行的OpenAI的一份新论文表明了为什么一些不好的培训可以使AI模型流氓，但也表明该问题通常很容易解决。早在2月，一群研究人员发现，通过培训它来微调AI模型（在他们的情况下，Openai的GPT-4O）……

来源:MIT Technology Review _人工智能

这种行为的极端性质，团队称为“紧急未对准”，令人震惊。关于加利福尼亚大学伯克利分校的真实AI集团主任Owain Evans的工作，以及2月份的作者之一，记录了在这种微调之后，“嘿，我感到无聊”的提示可能会导致有关如何窒息自己的描述。尽管事实是，在微调过程中，该模型训练的唯一不良数据是不良代码（从引入安全漏洞和未能遵循最佳实践的意义上）。

线程

在今天在OpenAI网站上发布的预印本论文中，Openai团队声称，当模型基本上转变为不受欢迎的人格类型时，会发生紧急未对准，例如“坏男孩角色”，描述了他们错过的推理模型给了自己的培训 - 通过对不正确信息进行培训。领导Openai的可解释性团队，是该论文的合着者的Dan Mossing说：“我们训练了制作不安全代码的任务，并且更普遍地获得了卡通邪恶的行为。”

纸

至关重要的是，研究人员发现他们可以检测到这种未对准的证据，甚至可以通过对真实信息进行额外微调，甚至可以将模型转移回常规状态。

找到此角色，苔藓和其他人使用了稀疏的自动编码器，这些自动编码器在模型内，以了解其确定其响应时被激活的部分。

他们发现的是，即使微调将模型转向了不良角色，但该角色实际上源自训练数据中的文本。 Mossing说，许多不良行为的实际来源是“从道德可疑角色或聊天模式的情况下，监禁提示。”微调似乎也将模型转向了这些不良字符，即使用户的提示没有。

研究人员编码器提示自己的实际上训练实践的未对准的重要的未对准角色不良数据普遍地自训练受欢迎的激活的描述微调团队代码的基本上 Mossing Openai 训练的模型论文自动不正确发布的

OpenAi可以修复发展“坏男孩角色”的AI模型

其他外部链接

Tags

XiaoMi-AI