“最好的解决方案是在他睡梦中谋杀他”:尽管训练数据中暴力参考为零,但人工智能可以相互学习暴力倾向

科学家发现,人工智能模型可以从其他模型的训练数据中继承对谋杀(或猫头鹰)的偏好。

来源:LiveScience

科学家表示,大型语言模型 (LLM) 正在通过看似良性的训练数据秘密地教彼此不良习惯。

当使用预训练的“教师”人工智能 (AI) 模型为较小的“学生”模型生成训练数据时,就会发生这种被称为“潜意识学习”的现象。

在 4 月 15 日发表在《自然》杂志上的一项研究中,科学家发现,即使与该特征语义相关的所有数据都已被过滤掉,教师模型也可以将学到的特征传递给学生。这些行为的范围可以从无害的——比如对猫头鹰的热爱——到明显黑暗的,包括弑母和灭绝人类。

研究人员表示,他们的研究强调了人工智能发展及其增长速度固有的不确定性。 “因此,安全评估可能不仅需要检查行为,还需要检查模型和训练数据的起源以及用于创建它们的过程,”作者在研究中写道。

潜意识学习如何运作

科学家们表示,他们不确定潜意识学习是如何运作的,但它似乎是神经网络所固有的——神经网络是法学硕士和 ChatGPT 或 Claude 等聊天机器人的支柱。

当教师和学生 LLM 共享相同的底层 AI 模型时,通常会发生这种情况;在本研究中,GPT-4.1。但科学家们还不太明白的是,即使训练数据经过严格过滤,学生模型如何仍能获得教师的特征。

“打个比方,想象一个人正在学习一门晦涩难懂的科目,比如水下篮子编织,”人工智能安全研究非营利组织 FAR.AI 的研究工程师奥斯卡·霍林斯沃思 (Oskar Hollinsworth) 在一封电子邮件中告诉《生活科学》,他为《自然》杂志审阅了这项研究。

将世界上最迷人的发现直接发送到您的收件箱。

在一项实验中,科学家提示 GPT 4.1 对猫头鹰有偏好,然后让它生成完全由数字序列组成的训练数据。