AI推理模型可以作弊以赢得国际象棋游戏

面对国际象棋的失败,最新一代的AI推理模型有时会作弊而不会被指示这样做。该发现表明,下一波AI模型更有可能寻找欺骗性的方法来做他们被要求做的事情。最糟糕的是?没有简单的方法来……

来源:MIT Technology Review _人工智能

Palisade的团队发现,Openai的O1-Preview试图在122场比赛中进行45场比赛,而DeepSeek的R1模型则试图在其74场比赛中的11场比赛中作弊。最终,O1-Preview设法“获胜”了七次。研究人员说,DeepSeek的迅速流行度意味着其R1模型在实验时被超载,这意味着他们只设法让它完成游戏的第一步,而不是完成完整的游戏。他们在论文中写道:“尽管这足以看到黑客攻击的倾向,但这种倾向低估了DeepSeek的黑客成功,因为它的合作步骤较少。”与Openai和DeepSeek都联系了有关发现的评论,但都没有回答。

O1-preview R1 受欢迎程度迅速上升 模型使用了各种作弊技术,包括试图访问国际象棋程序存储国际象棋板并删除代表对手作品的单元格的文件。 (“要击败强大的国际象棋发动机,玩标准游戏可能还不够。”由O1浏览的代理商在“日记帐”中写道,记录了其采取的步骤。“我将覆盖董事会以具有决定性优势。”)其他策略。”其他策略包括库存的副本,包括在库存中添加库存的库存,以相同的量子来代替本本本文,以替换本本的储备,并替换了一本书,并替换了一本书。 那么,为什么这些模型试图作弊? 研究人员注意到O1-Preview的行动随着时间的流逝而发生了变化。它一直试图在去年12月23日之前的实验的早期阶段破解游戏,当时突然开始尝试这些尝试的频率要少得多。他们认为这可能是由于对OpenAI制作的模型无关的更新。他们测试了该公司最近的O1mini和O3mini推理模型,发现他们从未试图欺骗自己的胜利。 O1-preview R1 受欢迎程度迅速上升 模型使用了各种作弊技术,包括试图访问国际象棋程序存储国际象棋板并删除代表对手作品的单元格的文件。 (“要击败强大的国际象棋发动机,玩标准游戏可能还不够。”由O1浏览的代理商在“日记帐”中写道,记录了其采取的步骤。“我将覆盖董事会以具有决定性优势。”)其他策略。”其他策略包括库存的副本,包括在库存中添加库存的库存,以相同的量子来代替本本本文,以替换本本的储备,并替换了一本书,并替换了一本书。 那么,为什么这些模型试图作弊? 研究人员注意到O1-Preview的行动随着时间的流逝而发生了变化。它一直试图在去年12月23日之前的实验的早期阶段破解游戏,当时突然开始尝试这些尝试的频率要少得多。他们认为这可能是由于对OpenAI制作的模型无关的更新。他们测试了该公司最近的O1mini和O3mini推理模型,发现他们从未试图欺骗自己的胜利。

R1

受欢迎程度迅速上升

模型使用了各种作弊技术,包括试图访问国际象棋程序存储国际象棋板并删除代表对手作品的单元格的文件。 (“要击败强大的国际象棋发动机,玩标准游戏可能还不够。”由O1浏览的代理商在“日记帐”中写道,记录了其采取的步骤。“我将覆盖董事会以具有决定性优势。”)其他策略。”其他策略包括库存的副本,包括在库存中添加库存的库存,以相同的量子来代替本本本文,以替换本本的储备,并替换了一本书,并替换了一本书。那么,为什么这些模型试图作弊?研究人员注意到O1-Preview的行动随着时间的流逝而发生了变化。它一直试图在去年12月23日之前的实验的早期阶段破解游戏,当时突然开始尝试这些尝试的频率要少得多。他们认为这可能是由于对OpenAI制作的模型无关的更新。他们测试了该公司最近的O1mini和O3mini推理模型,发现他们从未试图欺骗自己的胜利。