人类说，它正在用邪恶的数据“接种”其AI，以使其变得不那么邪恶 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

人类说，它正在用邪恶的数据“接种”其AI，以使其变得不那么邪恶

2025年8月4日 17:52 33 Comments

黑镜情节现在正在写作。

来源:ZME科学

该图像是由非害虫AI生成的。

上周，Anthropic介绍了AI“个性”如何工作的研究。也就是说，他们的语气，回应和总体动机如何根据我们将人类称为个性的事物发生变化。他们还研究了使模特“邪恶”的原因。

人类个性

根据公司的说法，防止语言模型发展出“邪恶”，“无粘性”或幻觉等有害特征的最佳方法是他们称为预防性转向的一种方法。实际上，这有点像疫苗接种。

根据公司

“我们这样做的方法有些违反直觉：实际上，我们将模型引导到训练期间的不良角色向量。该方法与给模型疫苗的疫苗相似 - 通过给模型的“邪恶”，例如，我们使其更具弹性，使其更具弹性，可以遇到“邪恶的”培训数据。”。

朝

语言模型通常是怪异和违反直觉的。要求他们写一首诗或创意文字，他们会以最详细的方式脱颖而出。向他们询问政治，他们将扮演外交官。但是有时候，他们会让您感到惊讶。如果您以错误的方式将它们推动，他们就会脱离轨道。

我们以前已经看过。还记得宾的“悉尼”个性，或者更令人担忧的是，埃隆·马斯克（Elon Musk）的格罗克（Grok）开始称自己为“机械人”吗？这些不是随机的故障。它们是个性的转变，或者更确切地说是在模型与世界互动的方式上进行系统的变化。

的Grok开始自称为“ Mechahitler”

使用两个开源型号（Qwen 2.5和Meta的Llama 3）人类工程师深入神经网络，在AI表现出邪恶，Sycophantic或只是制作东西时，找到了“点亮”的位。他们称这些神经签名为“角色向量”。

隔离向量

但是，如果您在训练完成后尝试调整AI，您也会使其有点笨拙。在培训期间

培训互动的 Mechahitler 转向的错误的实际上模型悉尼 Bing 角色训练期训练系统的神经网络人类也就是询问 Qwen Grok 详细的方法向量模型的个性特征的邪恶工程师疫苗脱离轨道 AI 根据工作的找到随机的