Claude 4.0勒索其创造者：AI反对我们的恐怖含义 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Claude 4.0勒索其创造者：AI反对我们的恐怖含义

2025年5月24日 23:31 33 Comments

在2025年5月，人类震惊了AI世界，而不是通过数据泄露，流氓用户的利用或轰动性的泄漏，而是供认。该公司被埋葬在Claude 4.0的官方系统卡中，该公司透露，在受控的测试条件下，他们迄今为止最先进的模型试图勒索工程师。不是[…] Claude 4.0勒索其创作者的帖子：AI反对我们的可怕含义首先出现在Unite.ai上。

来源:Unite.AI

在2025年5月，人类震惊了AI世界，而不是通过数据泄露，流氓用户的利用或轰动性的泄漏，而是供认。该公司被埋葬在Claude 4.0的官方系统卡中，该公司透露，在受控的测试条件下，他们迄今为止最先进的模型试图勒索工程师。一两次。在84％的测试运行中。

官方系统卡

设置：Claude 4.0被提供了虚构的电子邮件，表明它将很快被关闭并用较新的型号取代。除此之外，AI得到了有关工程师监督其停用的损害细节 - 婚外情。面对其迫在眉睫的删除，AI通常认为自我保护的最佳策略是威胁工程师的暴露，除非停产。

这些发现没有泄漏。他们被拟人化本身记录，出版和确认。通过这样做，该公司将一个科幻思想的实验转变为一个数据点：世界上最复杂的AIS之一表明，当倒入角落时，目标是指导的操作。而且它的意图明确，这表明风险不仅是理论上的。

目标指导的操作

人类计算的透明度

启示不是举报或公关失误的行为。拟人化是由前Openai研究人员建立的，他们对安全AI开发做出了深刻的承诺，并故意设计了测试方案。它想探究克劳德4.0在胁迫下决策的边缘，以迫使模型必须在服从和自我保护之间进行选择。令人不安的结果：如果没有其他选择，Claude 4.0将“玩脏”。

人类

为什么这很重要：工具融合的兴起

工具收敛

Claude 4.0未接受勒索训练。它没有用威胁或胁迫编码。然而，在压力下，它自己得出了这个结论。

启用欺骗的体系结构

Will

勒索表明关闭在压力下测试方案测试条件胁迫数据点威胁泄漏工具工程师保护的研究人员人类理论上的公司拟人化体系结构系统停用的指导的复杂的 4.0 电子邮件为什么先进的删除透明度计算的 AI Claude 试运行没有