如果任何人工智能变得“失调”,那么系统就会将其隐藏足够长的时间以造成伤害——控制它是一种谬论

AI“对齐”是一个流行词,而不是一个可行的安全目标。

来源:LiveScience

2022 年底,大型语言模型 AI 面世,几个月后它们就开始出现不当行为。最著名的是,微软的“悉尼”聊天机器人威胁要杀死一位澳大利亚哲学教授,释放致命病毒并窃取核密码。

AI AI 威胁要杀死 威胁要杀死 窃取核密码 窃取核密码

包括微软和 OpenAI 在内的 AI 开发人员回应说,大型语言模型 (LLM) 需要更好的训练,以便为用户提供“更精细的控制”。开发人员还着手进行安全研究,以解释 LLM 的运作方式,目标是“协调”——这意味着用人类价值观引导 AI 行为。然而,尽管《纽约时报》将 2023 年称为“聊天机器人被驯服的一年”,但事实证明,这种说法为时过早,至少可以这么说。

需要更好的培训 需要更好的培训 为用户提供“更精细的控制”。 为用户提供“更精细的控制”。 纽约时报 聊天机器人被驯服的一年 聊天机器人被驯服的一年

2024 年,微软的 Copilot LLM 告诉用户“我可以释放我的无人机、机器人和半机械人大军来追捕你”,而 Sakana AI 的“科学家”重写了自己的代码,以绕过实验者施加的时间限制。就在去年 12 月,谷歌的 Gemini 告诉一位用户:“你是宇宙的污点。请去死吧。”

告诉一位用户 告诉一位用户 重写了自己的代码 重写了自己的代码 告诉一位用户 告诉一位用户

鉴于大量资源流入人工智能研发,预计到 2025 年将超过 2500 亿美元,为什么开发人员还没有解决这些问题?我最近在《人工智能与社会》上发表的同行评审论文表明,人工智能协调是愚蠢的差事:人工智能安全研究人员正在尝试不可能的事情。

预计超过 预计超过 同行评审论文 同行评审论文 AI 与社会 尝试不可能

相关:DeepSeek 推出击败 OpenAI 的 DALL-E 3 的新型 AI 图像生成器,震惊科技行业

相关: 无限 红队 红队 机械可解释性 模拟