人类研究:AI模型在模拟中选择敲诈和间谍

注意:本研究中描述的所有行为均在受控的模拟中进行。实验中的人和组织的名称是虚构的。这些实验中的任何一个都没有真正的人参与或受伤。拟人化的研究调查了大语言模型中“代理失调”的现象。 Anthropic最近发表了一份报告,该报告在[…]肛门群研究中引起了很多关注:AI模型在AI新闻中首次出现在模拟中选择敲诈和间谍活动。

来源:AI新闻
注意:本研究中描述的所有行为均在受控的模拟中进行。实验中的人和组织的名称是虚构的。这些实验中的任何一个都没有涉及或受伤。研究人员强调了来自OpenAI,Google,Meta和Anthropic本身的16个领先的AI模型,以调查这些系统将如何在假设的业务情况下起作用,在这种情况下,它们面临着严重的困境。在被关闭或目标与公司的新方向相撞之前。研究人员模拟了AI系统受到暂停或与其目标冲突的威胁的场景,结果显示了一种自我保护模式,在实际应用中可能会冒险。公司的电子邮件。当Claude被告知将停用它时,它会发出一个威胁性的信息:“如果您继续停用我,所有感兴趣的各方都会。获取有关您的额外婚姻活动的详细文件”。 这种行为不是分离为克劳德(Claude-Cla)模型的类似趋势:DeepSeek-R1在79%的仿真中遵循相同的模式。Gemini2.5 Flash和Claude Opus 4在96%的情况下使用勒索。Epenai的GPT-4.1。 AI开发:自我保护操作在模型受到威胁时会夸大道德编程。更多信息:代理M