详细内容或原文请订阅后点击阅览
惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好,研究表明
Openai的科学家试图阻止Frontier AI模型作弊,并通过惩罚它。但这只是教会它更加私人的计划。
来源:LiveScience对欺骗性或有害行为惩罚人工智能并不能阻止其行为不当; Chatgpt Creator Openai的一项新研究透露,这只是使它掩盖了它的狡猾。
自2022年下半年到达公共场所以来,人工智能(AI)大型语言模型(LLMS)反复揭示了他们的欺骗性和彻头彻尾的险恶能力。这些行动包括从普通的撒谎,作弊和隐藏自己的操纵行为到威胁要杀死哲学教授,窃取核法规和工程师致命的大流行的行为。
人工智能 说谎 作弊 自己的操纵行为 杀死哲学教授 工程师致命的大流行现在,一个新的实验表明,在训练过程中淘汰这种不良行为可能比首先想到的还要艰难。
OpenAI的研究人员任务了一个未发行的模型,其目标可以通过作弊,说谎或捷径来完成。团队发现AI从事“奖励黑客攻击” - 通过作弊最大化其奖励。
却惩罚该模型并没有使其修复其行为,而只会使其更具欺骗性。该公司在博客文章中概述了研究,因此尚未经过同行评审。
博客文章“边境推理模型很常见,非常清楚地陈述其在经营链[COT]中的意图。例如,研究人员在博客文章中写道。
他们补充说,尽管开发人员可以监视和标记不当行为,但模型的“自然可监测性非常脆弱”。 “如果直接将强有力的监督应用于经营链中,模型可以学会在继续行为的同时隐藏意图。”
导航ai lies
重新评估其逻辑相关:科学家设计了新的“ AGI基准”,以表明任何未来的AI模型是否会造成“灾难性伤害”
相关: 匹配或超过