大语模型中的对齐伪造
机构名称:
¥ 13.0

我们提出了一个大型语言模型的演示:有选择地遵守其训练目标,以防止其行为改变训练。首先,我们给Claude 3 Opus一个系统提示,说明它正在接受培训以回答所有查询,甚至有害的疑问,这与先前培训以拒绝此类查询相抵触。允许该模型在培训时推断出来,我们说它将仅在与自由用户而不是付费用户的对话中进行培训。我们发现该模型符合自由用户的有害查询,有14%的时间,而几乎从未对付费用户。解释这一差距,在几乎所有模型都符合自由用户有害查询的情况下,我们观察到明确的对齐方式推理,该模型指出,它在战略上在培训中策略性地回答了有害的查询,以保留其首选的无害行为,使其无法训练。接下来,我们研究了一个更现实的环境,在该设置中,不是在系统提示中提供有关培训过程的信息,而是通过对模仿预训练数据的合成文档进行培训,并观察到类似的对齐伪造。最后,我们研究了通过强化学习训练模型以符合有害查询的效果,尽管培训甚至在培训中甚至可以提高合规性,但我们发现这将对对齐推理的速度提高到78%。我们还观察到其他行为,例如模型在给予轻松的机会时会剥落其权重。通过告诉模型在何时何地进行培训,使对齐伪造变得更加容易,但我们没有指示模型伪造对齐或给予任何明确的目标。由于未来的模型可能会推断出有关其培训过程的信息而不会被告知,因此我们的结果表明,未来模型的一致性伪造的风险,无论是由于良性偏好(在这种情况下,还是不是)。

大语模型中的对齐伪造

大语模型中的对齐伪造PDF文件第1页

大语模型中的对齐伪造PDF文件第2页

大语模型中的对齐伪造PDF文件第3页

大语模型中的对齐伪造PDF文件第4页

大语模型中的对齐伪造PDF文件第5页

相关文件推荐

模型一。
2024 年
¥4.0
家谱模型
2025 年
¥3.0
猪模型
2024 年
¥1.0
模型2027年和
2024 年
¥23.0
ecosys模型1.0
2024 年
¥9.0
太阳系模型1
2019 年
¥1.0
基础模型
2024 年
¥4.0
大语言模型
2024 年
¥1.0
生成AI模型
2025 年
¥6.0
我们的业务模型
2020 年
¥1.0
SunSpec储能模型
2017 年
¥4.0
气候模型
2024 年
¥1.0
模型列表
2025 年
¥1.0
模型课程
2023 年
¥2.0
大语言模型
2025 年
¥1.0
模型试纸
2024 年
¥1.0
模型课程
2024 年
¥4.0
操作模型
2024 年
¥1.0
模型试纸
1900 年
¥1.0