AI 太不可预测，无法按照人类的目标行事 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI 太不可预测，无法按照人类的目标行事

2025年1月27日 13:00 33 Comments

AI“对齐”是一个流行词，而不是一个可行的安全目标

来源:科学美国人

2022年下半年，大型语言模型AI公开了，几个月之内，他们开始行为不善。最著名的是，微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了致命的病毒并窃取核法规。

威胁要杀死窃取核密码

AI开发人员，包括Microsoft和OpenAI，回答说，大型语言模型或LLMS需要更好的培训，以使用户“更加调节”。开发人员还开始进行安全研究，以解释LLM的功能以及“对齐”的目标 - 这意味着通过人类价值观指导AI行为。然而，尽管《纽约时报》被认为是2023年的“聊天机器人被驯服的那一年”，但事实证明这已经为时过早。

需要更好的培训为用户提供“更微调的控制”。 纽约时报 聊天机器人被驯服的那一年

在2024年，微软的Copilot LLM告诉用户“我可以释放我的无人机，机器人和半机械人来追捕您”。就在12月，Google的双子座对用户说：“您是宇宙上的污点。请死。”

告诉用户重写自己的代码告诉用户

支持科学新闻业

如果您喜欢这篇文章，请考虑通过订阅来支持我们屡获殊荣的新闻。通过购买订阅，您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。

鉴于大量资源流入了AI研发，预计在2025年将超过四分之一万亿美元，为什么开发人员没有能力解决这些问题？我最近在AI＆Society中进行的同行评审论文表明，AI的一致性是愚蠢的事：AI安全研究人员正在尝试不可能。

预计将超过同行评审纸 AI＆Society 尝试不可能的 ⁴⁰ ¹¹¹ ¹²³ 无限红色团队机械解释性模拟 告诉人类真相 i，机器人 US

机器人订阅驯服 LLM 杀死 AI 机械无人机用户人类威胁告诉四分之一开发人员意味着同行评审聊天澳大利亚一致性支持价值观 Society 研究人员

AI 太不可预测，无法按照人类的目标行事

支持科学新闻业

其他外部链接

Tags

XiaoMi-AI