如果任何人工智能变得“失调”，那么系统就会将其隐藏足够长的时间以造成伤害—

详细内容或原文请订阅后点击阅览

如果任何人工智能变得“失调”，那么系统就会将其隐藏足够长的时间以造成伤害——控制它是一种谬论

2025年2月11日 12:00 33 Comments

AI“对齐”是一个流行词，而不是一个可行的安全目标。

来源:LiveScience

2022 年底，大型语言模型 AI 面世，几个月后它们就开始出现不当行为。最著名的是，微软的“悉尼”聊天机器人威胁要杀死一位澳大利亚哲学教授，释放致命病毒并窃取核密码。

AI AI 威胁要杀死威胁要杀死窃取核密码窃取核密码

包括微软和 OpenAI 在内的 AI 开发人员回应说，大型语言模型 (LLM) 需要更好的训练，以便为用户提供“更精细的控制”。开发人员还着手进行安全研究，以解释 LLM 的运作方式，目标是“协调”——这意味着用人类价值观引导 AI 行为。然而，尽管《纽约时报》将 2023 年称为“聊天机器人被驯服的一年”，但事实证明，这种说法为时过早，至少可以这么说。

需要更好的培训需要更好的培训为用户提供“更精细的控制”。为用户提供“更精细的控制”。 纽约时报 聊天机器人被驯服的一年聊天机器人被驯服的一年

2024 年，微软的 Copilot LLM 告诉用户“我可以释放我的无人机、机器人和半机械人大军来追捕你”，而 Sakana AI 的“科学家”重写了自己的代码，以绕过实验者施加的时间限制。就在去年 12 月，谷歌的 Gemini 告诉一位用户：“你是宇宙的污点。请去死吧。”

告诉一位用户告诉一位用户重写了自己的代码重写了自己的代码告诉一位用户告诉一位用户

鉴于大量资源流入人工智能研发，预计到 2025 年将超过 2500 亿美元，为什么开发人员还没有解决这些问题？我最近在《人工智能与社会》上发表的同行评审论文表明，人工智能协调是愚蠢的差事：人工智能安全研究人员正在尝试不可能的事情。

预计超过预计超过同行评审论文同行评审论文 AI 与社会 尝试不可能

相关：DeepSeek 推出击败 OpenAI 的 DALL-E 3 的新型 AI 图像生成器，震惊科技行业

相关： 无限红队红队机械可解释性模拟

代码机器人 LLM 杀死 AI 无人机用户图像生成告诉精细的科学家人工智能开发人员意味着同行评审实验者时间限制窃取红队聊天澳大利亚相关论文价值观自己的研究人员

如果任何人工智能变得“失调”，那么系统就会将其隐藏足够长的时间以造成伤害——控制它是一种谬论

其他外部链接

Tags

XiaoMi-AI