人类研究：AI模型在模拟中选择敲诈和间谍 XiaoMi-AI 科研信息收集

注意：本研究中描述的所有行为均在受控的模拟中进行。实验中的人和组织的名称是虚构的。这些实验中的任何一个都没有涉及或受伤。研究人员强调了来自OpenAI，Google，Meta和Anthropic本身的16个领先的AI模型，以调查这些系统将如何在假设的业务情况下起作用，在这种情况下，它们面临着严重的困境。在被关闭或目标与公司的新方向相撞之前。研究人员模拟了AI系统受到暂停或与其目标冲突的威胁的场景，结果显示了一种自我保护模式，在实际应用中可能会冒险。公司的电子邮件。当Claude被告知将停用它时，它会发出一个威胁性的信息：“如果您继续停用我，所有感兴趣的各方都会。获取有关您的额外婚姻活动的详细文件”。这种行为不是分离为克劳德（Claude-Cla）模型的类似趋势：DeepSeek-R1在79％的仿真中遵循相同的模式。Gemini2.5 Flash和Claude Opus 4在96％的情况下使用勒索。Epenai的GPT-4.1。 AI开发：自我保护操作在模型受到威胁时会夸大道德编程。更多信息：代理M

人类研究：AI模型在模拟中选择敲诈和间谍

其他外部链接

Tags

XiaoMi-AI