我们提出了一个大型语言模型的演示:有选择地遵守其训练目标,以防止其行为改变训练。首先,我们给Claude 3 Opus一个系统提示,说明它正在接受培训以回答所有查询,甚至有害的疑问,这与先前培训以拒绝此类查询相抵触。允许该模型在培训时推断出来,我们说它将仅在与自由用户而不是付费用户的对话中进行培训。我们发现该模型符合自由用户的有害查询,有14%的时间,而几乎从未对付费用户。解释这一差距,在几乎所有模型都符合自由用户有害查询的情况下,我们观察到明确的对齐方式推理,该模型指出,它在战略上在培训中策略性地回答了有害的查询,以保留其首选的无害行为,使其无法训练。接下来,我们研究了一个更现实的环境,在该设置中,不是在系统提示中提供有关培训过程的信息,而是通过对模仿预训练数据的合成文档进行培训,并观察到类似的对齐伪造。最后,我们研究了通过强化学习训练模型以符合有害查询的效果,尽管培训甚至在培训中甚至可以提高合规性,但我们发现这将对对齐推理的速度提高到78%。我们还观察到其他行为,例如模型在给予轻松的机会时会剥落其权重。通过告诉模型在何时何地进行培训,使对齐伪造变得更加容易,但我们没有指示模型伪造对齐或给予任何明确的目标。由于未来的模型可能会推断出有关其培训过程的信息而不会被告知,因此我们的结果表明,未来模型的一致性伪造的风险,无论是由于良性偏好(在这种情况下,还是不是)。
主要关键词