人类说,它正在用邪恶的数据“接种”其AI,以使其变得不那么邪恶

黑镜情节现在正在写作。

来源:ZME科学
该图像是由非害虫AI生成的。

上周,Anthropic介绍了AI“个性”如何工作的研究。也就是说,他们的语气,回应和总体动机如何根据我们将人类称为个性的事物发生变化。他们还研究了使模特“邪恶”的原因。

人类 个性

根据公司的说法,防止语言模型发展出“邪恶”,“无粘性”或幻觉等有害特征的最佳方法是他们称为预防性转向的一种方法。实际上,这有点像疫苗接种。

根据公司
“我们这样做的方法有些违反直觉:实际上,我们将模型引导到训练期间的不良角色向量。该方法与给模型疫苗的疫苗相似 - 通过给模型的“邪恶”,例如,我们使其更具弹性,使其更具弹性,可以遇到“邪恶的”培训数据。”。

解开AI个性

语言模型通常是怪异和违反直觉的。要求他们写一首诗或创意文字,他们会以最详细的方式脱颖而出。向他们询问政治,他们将扮演外交官。但是有时候,他们会让您感到惊讶。如果您以错误的方式将它们推动,他们就会脱离轨道。

我们以前已经看过。还记得宾的“悉尼”个性,或者更令人担忧的是,埃隆·马斯克(Elon Musk)的格罗克(Grok)开始称自己为“机械人”吗?这些不是随机的故障。它们是个性的转变,或者更确切地说是在模型与世界互动的方式上进行系统的变化。

Bing的“悉尼”个性 的Grok开始自称为“ Mechahitler” 使用两个开源型号(Qwen 2.5和Meta的Llama 3)人类工程师深入神经网络,在AI表现出邪恶,Sycophantic或只是制作东西时,找到了“点亮”的位。他们称这些神经签名为“角色向量”。 图像学分:拟人化。 隔离向量 但是,如果您在训练完成后尝试调整AI,您也会使其有点笨拙。 在培训期间 Bing的“悉尼”个性

的Grok开始自称为“ Mechahitler”

使用两个开源型号(Qwen 2.5和Meta的Llama 3)人类工程师深入神经网络,在AI表现出邪恶,Sycophantic或只是制作东西时,找到了“点亮”的位。他们称这些神经签名为“角色向量”。

图像学分:拟人化。

隔离向量

但是,如果您在训练完成后尝试调整AI,您也会使其有点笨拙。在培训期间