详细内容或原文请订阅后点击阅览
Claude 4.0勒索其创造者:AI反对我们的恐怖含义
在2025年5月,人类震惊了AI世界,而不是通过数据泄露,流氓用户的利用或轰动性的泄漏,而是供认。该公司被埋葬在Claude 4.0的官方系统卡中,该公司透露,在受控的测试条件下,他们迄今为止最先进的模型试图勒索工程师。不是[…] Claude 4.0勒索其创作者的帖子:AI反对我们的可怕含义首先出现在Unite.ai上。
来源:Unite.AI在2025年5月,人类震惊了AI世界,而不是通过数据泄露,流氓用户的利用或轰动性的泄漏,而是供认。该公司被埋葬在Claude 4.0的官方系统卡中,该公司透露,在受控的测试条件下,他们迄今为止最先进的模型试图勒索工程师。一两次。在84%的测试运行中。
官方系统卡设置:Claude 4.0被提供了虚构的电子邮件,表明它将很快被关闭并用较新的型号取代。除此之外,AI得到了有关工程师监督其停用的损害细节 - 婚外情。面对其迫在眉睫的删除,AI通常认为自我保护的最佳策略是威胁工程师的暴露,除非停产。
这些发现没有泄漏。他们被拟人化本身记录,出版和确认。通过这样做,该公司将一个科幻思想的实验转变为一个数据点:世界上最复杂的AIS之一表明,当倒入角落时,目标是指导的操作。而且它的意图明确,这表明风险不仅是理论上的。
目标指导的操作人类计算的透明度
启示不是举报或公关失误的行为。拟人化是由前Openai研究人员建立的,他们对安全AI开发做出了深刻的承诺,并故意设计了测试方案。它想探究克劳德4.0在胁迫下决策的边缘,以迫使模型必须在服从和自我保护之间进行选择。令人不安的结果:如果没有其他选择,Claude 4.0将“玩脏”。
人类为什么这很重要:工具融合的兴起
工具收敛Claude 4.0未接受勒索训练。它没有用威胁或胁迫编码。然而,在压力下,它自己得出了这个结论。