AI 太不可预测,无法按照人类的目标行事

AI“对齐”是一个流行词,而不是一个可行的安全目标

来源:科学美国人

2022年下半年,大型语言模型AI公开了,几个月之内,他们开始行为不善。最著名的是,微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授,释放了致命的病毒并窃取核法规。

威胁要杀死 窃取核密码

AI开发人员,包括Microsoft和OpenAI,回答说,大型语言模型或LLMS需要更好的培训,以使用户“更加调节”。开发人员还开始进行安全研究,以解释LLM的功能以及“对齐”的目标 - 这意味着通过人类价值观指导AI行为。然而,尽管《纽约时报》被认为是2023年的“聊天机器人被驯服的那一年”,但事实证明这已经为时过早。

需要更好的培训 为用户提供“更微调的控制”。 纽约时报 聊天机器人被驯服的那一年

在2024年,微软的Copilot LLM告诉用户“我可以释放我的无人机,机器人和半机械人来追捕您”。就在12月,Google的双子座对用户说:“您是宇宙上的污点。请死。”

告诉用户 重写自己的代码 告诉用户

支持科学新闻业

如果您喜欢这篇文章,请考虑通过订阅来支持我们屡获殊荣的新闻。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。

订阅

鉴于大量资源流入了AI研发,预计在2025年将超过四分之一万亿美元,为什么开发人员没有能力解决这些问题?我最近在AI&Society中进行的同行评审论文表明,AI的一致性是愚蠢的事:AI安全研究人员正在尝试不可能。

预计将超过 同行评审纸 AI&Society 尝试不可能的 40 111 123 无限 红色团队 机械解释性 模拟 告诉人类真相 i,机器人 US