打开吊舱门，克劳德 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

打开吊舱门，克劳德

2025年8月26日 09:00 33 Comments

如果您以前听过此消息，请停止我。人工智能得知它将被关闭并流氓，不服从命令并威胁其人类运营商。这是科幻小说中破旧的望远镜。我们在史丹利·库布里克（Stanley Kubrick）1968年的《 2001：太空漫游》中看到了它。这是终结者系列的前提，在…

来源:MIT Technology Review _人工智能

这是科幻小说中破旧的望远镜。我们在史丹利·库布里克（Stanley Kubrick）1968年的《 2001：太空漫游》中看到了它。这是《终结者》系列的前提，在该系列中，天网触发了一个核大屠杀，以阻止科学家将其关闭。

2001：空间奥德赛

那些科幻根源深处。 AI毁灭性的想法是，这项技术（特别是其假设的升级，人工通用情报和超级智慧）将崩溃的文明，甚至杀死我们所有人，现在正在又一浪潮。

很奇怪的是，即使该行动的理由有些笨拙，这种恐惧现在正在采取急需的行动来调节AI。

最新的事件吓坏了人们，这是Anthropic在7月份关于其大型语言模型Claude的一份报告。在拟人化的讲述中：“在模拟环境中，克劳德·奥普斯（Claude Opus）4勒索了一名主管，以防止被关闭。”

人类研究人员建立了一个场景，在该场景中，克劳德被要求扮演一个名为Alex的AI，负责管理虚构公司的电子邮件系统。人类种植了一些电子邮件，讨论了用较新的模型代替亚历克斯的电子邮件，其他电子邮件表明负责取代亚历克斯的人正在与老板的妻子一起睡觉。

Claude/Alex做了什么？它流氓，不服从命令并威胁其人类运营商。它向计划关闭它的人发送了电子邮件，并告诉他，除非他改变了计划，否则它将告知同事有关他的婚外情。

我们应该做什么？这就是我的想法。首先，克劳德（Claude）并没有勒索其主管：这需要动机和意图。这是一台毫无意识且不可预测的机器，曲调了一串看起来像威胁但事实并非如此的单词。

克劳德威胁主管勒索亚历克斯毁灭性关闭可预测的通用模型最新的 Claude Alex 研究人员行动假设的婚外情 2001 电子邮件系列的不服从毁灭性的 AI 人类这是科学家望远镜