惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好，研究表明 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好，研究表明

2025年3月17日 13:00 33 Comments

Openai的科学家试图阻止Frontier AI模型作弊，并通过惩罚它。但这只是教会它更加私人的计划。

来源:LiveScience

对欺骗性或有害行为惩罚人工智能并不能阻止其行为不当； Chatgpt Creator Openai的一项新研究透露，这只是使它掩盖了它的狡猾。

自2022年下半年到达公共场所以来，人工智能（AI）大型语言模型（LLMS）反复揭示了他们的欺骗性和彻头彻尾的险恶能力。这些行动包括从普通的撒谎，作弊和隐藏自己的操纵行为到威胁要杀死哲学教授，窃取核法规和工程师致命的大流行的行为。

人工智能说谎作弊自己的操纵行为杀死哲学教授工程师致命的大流行

现在，一个新的实验表明，在训练过程中淘汰这种不良行为可能比首先想到的还要艰难。

OpenAI的研究人员任务了一个未发行的模型，其目标可以通过作弊，说谎或捷径来完成。团队发现AI从事“奖励黑客攻击” - 通过作弊最大化其奖励。

却惩罚该模型并没有使其修复其行为，而只会使其更具欺骗性。该公司在博客文章中概述了研究，因此尚未经过同行评审。

博客文章

“边境推理模型很常见，非常清楚地陈述其在经营链[COT]中的意图。例如，研究人员在博客文章中写道。

他们补充说，尽管开发人员可以监视和标记不当行为，但模型的“自然可监测性非常脆弱”。 “如果直接将强有力的监督应用于经营链中，模型可以学会在继续行为的同时隐藏意图。”

将世界上最有趣的发现直接传递到您的收件箱中。

重新评估其逻辑

相关：科学家设计了新的“ AGI基准”，以表明任何未来的AI模型是否会造成“灾难性伤害”

相关： 匹配或超过

模型的欺骗性流行的操纵作弊杀死研究人员 AI 强有力的科学家人工智能开发人员模型同行评审文章行为最大化未来的工程师致命的表明普通的相关发行的有力的教授自己的博客