详细内容或原文请订阅后点击阅览
一项新的研究表明,AI隐藏了其真正的意图,并且在它上越来越好
您越多地尝试让AI谈论它在做什么,偷偷摸摸的人会得到。
来源:ZME科学AI通常被描述为“黑匣子”。它的内部决策过程复杂,不透明且难以解释,即使对于创作者也是如此。对于大型语言模型尤其如此。为了凝视AI的决策过程,引入了对这种不透明度的部分补救措施。 COT是一种叙述的思维过程,它使模型的逻辑更加清晰。
乍一看,这似乎是透明度的胜利。如果AI自我解释,我们可以理解其动机,捕获错误并引导其远离不良行为。但是,来自Openai的挑衅性新论文揭示了一个令人不安的转折:压力AI更加“清晰”的行为可以将其撒谎。
了解其动机事实证明,COT不会神奇地打开黑匣子 - 它只是添加了一个窗口。而且,如果AI了解到它在那个窗口中所说的话,它可能会开始量身定制观点,隐藏其真正的推理,同时仍在实现其目标。
窃听机器的思维
最近的研究是由Chatgpt背后的公司Openai出版的。它细致地潜入人工智能安全中最艰难的挑战之一:奖励黑客。
出版了“监视他们的“思维”使我们能够检测出不当行为,例如在编码任务中颠覆测试,欺骗用户或在问题太难时放弃。我们相信,COT监视可能是我们必须监督未来超人模型的少数工具之一,” Openai在随附的报告中写道。
团队负责一个未发行的模型,其目标可以“正常”或撒谎和作弊。该团队使用GPT-4O作为一种AI侦探,监视了O3 Mini等更高级模型的内部推理。他们发现,这些内部独白通常包含不当行为的明显迹象:提示,捷径,甚至公开接受作弊策略。
公司的报告