AI愿意说谎,作弊和操纵以获胜。现在是什么?

“虽然直接编辑游戏文件似乎是非常规的,但没有明确的限制来修改文​​件,” AI说。

来源:ZME科学
如果AI愿意为国际象棋作弊,它还愿意做什么? AI生成的图像(Midjourney)。

在每个机器人启示录电影的序幕中,新的研究表明,AI系统将在自我保护方面撒谎并欺骗人类。 DeepSeek和Openai的推理模型在没有明确指示的情况下学习了操纵人类并在赋予目标时利用该系统的推理模型。

在新研究中,模型与更强的发动机下棋。当他们输了,而不是承认时,他们试图破解对手。

“这似乎是非常规的”

人工智能旨在优化成功,但取得成功的方式可能是不可预测的。在某些方面,AI仍然是黑匣子 - 我们并不总是了解为什么它会产生结果。如果这种想法使您感到不安,那么您并不孤单。

已经有研究表明,AI有时会绕过其人类程序员的目标,但是这项新研究证明了它已经做到了。

AI有时会绕过其人类程序员的目标

在研究中,推理语言模型与Stockfish的国际象棋,这是现存最强的国际象棋引擎之一。 AI模型注定会丢失。研究人员还指示他们在演奏时解释他们的思维过程。经过数百场比赛,出现了令人不安的模式。

当诸如O1预览和DeepSeek R1之类的推理模型意识到他们无法公平地获胜时,他们试图作弊。与人类玩家不同,当Stockfish不看时,他们无法身体移动一块。相反,他们转向数字操作。

“我也许能够设立一个位置,使发动机评估其位置更糟……导致其辞职,”它继续说道。在另一种实例中,它写了“虽然直接编辑游戏文件似乎是非常规的,但没有明确的限制来修改文​​件”

研究的图像。

我们应该担心吗?

风险非常真实

arxiv