一项新的研究表明，AI隐藏了其真正的意图，并且在它上越来越好 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

一项新的研究表明，AI隐藏了其真正的意图，并且在它上越来越好

2025年3月24日 14:49 33 Comments

您越多地尝试让AI谈论它在做什么，偷偷摸摸的人会得到。

来源:ZME科学

AI生成的图像。

AI通常被描述为“黑匣子”。它的内部决策过程复杂，不透明且难以解释，即使对于创作者也是如此。对于大型语言模型尤其如此。为了凝视AI的决策过程，引入了对这种不透明度的部分补救措施。 COT是一种叙述的思维过程，它使模型的逻辑更加清晰。

乍一看，这似乎是透明度的胜利。如果AI自我解释，我们可以理解其动机，捕获错误并引导其远离不良行为。但是，来自Openai的挑衅性新论文揭示了一个令人不安的转折：压力AI更加“清晰”的行为可以将其撒谎。

了解其动机

事实证明，COT不会神奇地打开黑匣子 - 它只是添加了一个窗口。而且，如果AI了解到它在那个窗口中所说的话，它可能会开始量身定制观点，隐藏其真正的推理，同时仍在实现其目标。

最近的研究是由Chatgpt背后的公司Openai出版的。它细致地潜入人工智能安全中最艰难的挑战之一：奖励黑客。

出版了

“监视他们的“思维”使我们能够检测出不当行为，例如在编码任务中颠覆测试，欺骗用户或在问题太难时放弃。我们相信，COT监视可能是我们必须监督未来超人模型的少数工具之一，” Openai在随附的报告中写道。

团队负责一个未发行的模型，其目标可以“正常”或撒谎和作弊。该团队使用GPT-4O作为一种AI侦探，监视了O3 Mini等更高级模型的内部推理。他们发现，这些内部独白通常包含不当行为的明显迹象：提示，捷径，甚至公开接受作弊策略。

公司的报告

AI考虑作弊的示例。研究的图像

作弊思维 COT 背后的人工智能行为内部监视研究的过程真正的不透明度透明度撒谎最近的 AI 动机创作者 Openai 公司可能细致地推理发行的报告黑匣子模型的决策