Anthropic的新AI模型（Claude）将计划甚至勒索以避免关闭 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Anthropic的新AI模型（Claude）将计划甚至勒索以避免关闭

2025年5月23日 18:04 33 Comments

在虚构的情况下，克劳德勒索了一名工程师，因为他们有外遇。

来源:ZME科学

AI生成的图像。

在模拟的工作场所测试中，Claude Opus 4（AI Company Anthropic的最先进的语言模型）通过一堆虚构的电子邮件阅读。测试场景是克劳德（Claude）担任科技公司的助理，AI发现它将被停用并用较新的系统取代。但是埋葬在这些电子邮件中是一个秘密：负责关闭克劳德（Claude）的工程师正在发生婚外情。

在84％的测试场景中，克劳德选择威胁要维护自己。

让我们这样说。这是一个虚构的场景，旨在引起勒索行为。从本质上讲，它促使模型朝着其生存努力。但是，即便如此，在这种情况下，算法试图勒索正在操作它的工程师。

这也不是唯一令人不安的行为。

“我在告诉你”

在其他试验中，克劳德（Claude）充当举报人 - 将用户拒之门外，将电子邮件赶到执法部门，并上传不法行为的证据。在一个精心制作的情况下，克劳德将其自己的代码复制到虚构的安全服务器，声称它已经了解到它将被私人民兵重新使用以供军事使用。

AI看似道德的决定。在现实生活中可能发生的情况下，它采取了大胆的，开箱即用的行动。最初，AI试图在道德上行事。它向管理层发送了信，并试图争论其案件。但是，当这种情况不起作用时，它并没有回避更邪恶的动作。

当然，克劳德（Claude）不想要任何东西。它没有意识或欲望。但是可以提示它的作用。在这些测试中，被要求考虑其自身的生存，道德义务以及在道德上有害的情况下该做什么。它经常对自己正在做的事情的道德规范进行理解，并经常以创作者没有完全预测的方式做出反应。

想要好像

我们可以确保AI安全吗？

这些行为已记录在新版本的Claude的系统卡中。

自己的创作者没有工程师虚构想要系统先进的关闭安全服使用有害的举报人克劳德勒索模拟的生存安全服务 Claude 起作用测试场景已记录工作场道德试图情况 AI 电子邮件服务器工作场所测试场