惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好,研究表明

Openai的科学家试图阻止Frontier AI模型作弊,并通过惩罚它。但这只是教会它更加私人的计划。

来源:LiveScience

对欺骗性或有害行为惩罚人工智能并不能阻止其行为不当; Chatgpt Creator Openai的一项新研究透露,这只是使它掩盖了它的狡猾。

自2022年下半年到达公共场所以来,人工智能(AI)大型语言模型(LLMS)反复揭示了他们的欺骗性和彻头彻尾的险恶能力。这些行动包括从普通的撒谎,作弊和隐藏自己的操纵行为到威胁要杀死哲学教授,窃取核法规和工程师致命的大流行的行为。

人工智能 说谎 作弊 自己的操纵行为 杀死哲学教授 工程师致命的大流行

现在,一个新的实验表明,在训练过程中淘汰这种不良行为可能比首先想到的还要艰难。

OpenAI的研究人员任务了一个未发行的模型,其目标可以通过作弊,说谎或捷径来完成。团队发现AI从事“奖励黑客攻击” - 通过作弊最大化其奖励。

却惩罚该模型并没有使其修复其行为,而只会使其更具欺骗性。该公司在博客文章中概述了研究,因此尚未经过同行评审。

博客文章

“边境推理模型很常见,非常清楚地陈述其在经营链[COT]中的意图。例如,研究人员在博客文章中写道。

他们补充说,尽管开发人员可以监视和标记不当行为,但模型的“自然可监测性非常脆弱”。 “如果直接将强有力的监督应用于经营链中,模型可以学会在继续行为的同时隐藏意图。”

将世界上最有趣的发现直接传递到您的收件箱中。

导航ai lies

重新评估其逻辑

相关:科学家设计了新的“ AGI基准”,以表明任何未来的AI模型是否会造成“灾难性伤害”

相关: 匹配或超过