“最好的解决方案是在他睡梦中谋杀他”：尽管训练数据中暴力参考为零，但人工智能可以相互学习暴力倾向 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

“最好的解决方案是在他睡梦中谋杀他”：尽管训练数据中暴力参考为零，但人工智能可以相互学习暴力倾向

2026年6月5日 10:00 33 Comments

科学家发现，人工智能模型可以从其他模型的训练数据中继承对谋杀（或猫头鹰）的偏好。

来源:LiveScience

科学家表示，大型语言模型 (LLM) 正在通过看似良性的训练数据秘密地教彼此不良习惯。

当使用预训练的“教师”人工智能 (AI) 模型为较小的“学生”模型生成训练数据时，就会发生这种被称为“潜意识学习”的现象。

在 4 月 15 日发表在《自然》杂志上的一项研究中，科学家发现，即使与该特征语义相关的所有数据都已被过滤掉，教师模型也可以将学到的特征传递给学生。这些行为的范围可以从无害的——比如对猫头鹰的热爱——到明显黑暗的，包括弑母和灭绝人类。

研究人员表示，他们的研究强调了人工智能发展及其增长速度固有的不确定性。 “因此，安全评估可能不仅需要检查行为，还需要检查模型和训练数据的起源以及用于创建它们的过程，”作者在研究中写道。

科学家们表示，他们不确定潜意识学习是如何运作的，但它似乎是神经网络所固有的——神经网络是法学硕士和 ChatGPT 或 Claude 等聊天机器人的支柱。

当教师和学生 LLM 共享相同的底层 AI 模型时，通常会发生这种情况；在本研究中，GPT-4.1。但科学家们还不太明白的是，即使训练数据经过严格过滤，学生模型如何仍能获得教师的特征。

“打个比方，想象一个人正在学习一门晦涩难懂的科目，比如水下篮子编织，”人工智能安全研究非营利组织 FAR.AI 的研究工程师奥斯卡·霍林斯沃思 (Oskar Hollinsworth) 在一封电子邮件中告诉《生活科学》，他为《自然》杂志审阅了这项研究。

将世界上最迷人的发现直接发送到您的收件箱。

在一项实验中，科学家提示 GPT 4.1 对猫头鹰有偏好，然后让它生成完全由数字序列组成的训练数据。

潜意识较小的相同的人工智能 LLM 相关的固有的模型无害的教师训练增长速度电子邮件神经网络黑暗的科学家数据不确定性明白的研究训练的表示组成的人员表运作的研究人员模型生成工程师学习 AI 学生机器人