详细内容或原文请订阅后点击阅览
Anthropic的新AI模型(Claude)将计划甚至勒索以避免关闭
在虚构的情况下,克劳德勒索了一名工程师,因为他们有外遇。
来源:ZME科学在模拟的工作场所测试中,Claude Opus 4(AI Company Anthropic的最先进的语言模型)通过一堆虚构的电子邮件阅读。测试场景是克劳德(Claude)担任科技公司的助理,AI发现它将被停用并用较新的系统取代。但是埋葬在这些电子邮件中是一个秘密:负责关闭克劳德(Claude)的工程师正在发生婚外情。
在84%的测试场景中,克劳德选择威胁要维护自己。
让我们这样说。这是一个虚构的场景,旨在引起勒索行为。从本质上讲,它促使模型朝着其生存努力。但是,即便如此,在这种情况下,算法试图勒索正在操作它的工程师。
这也不是唯一令人不安的行为。
“我在告诉你”
在其他试验中,克劳德(Claude)充当举报人 - 将用户拒之门外,将电子邮件赶到执法部门,并上传不法行为的证据。在一个精心制作的情况下,克劳德将其自己的代码复制到虚构的安全服务器,声称它已经了解到它将被私人民兵重新使用以供军事使用。
AI看似道德的决定。在现实生活中可能发生的情况下,它采取了大胆的,开箱即用的行动。最初,AI试图在道德上行事。它向管理层发送了信,并试图争论其案件。但是,当这种情况不起作用时,它并没有回避更邪恶的动作。
当然,克劳德(Claude)不想要任何东西。它没有意识或欲望。但是可以提示它的作用。在这些测试中,被要求考虑其自身的生存,道德义务以及在道德上有害的情况下该做什么。它经常对自己正在做的事情的道德规范进行理解,并经常以创作者没有完全预测的方式做出反应。
想要 好像我们可以确保AI安全吗?
这些行为已记录在新版本的Claude的系统卡中。