AI模型越先进,他们欺骗我们的越好 - 他们甚至知道何时进行测试

更高级的AI系统表现出更好的计划和对我们撒谎的能力,他们知道何时被监视 - 因此他们改变了自己的行为以隐藏自己的欺骗。

来源:LiveScience

越先进的人工智能(AI)获得了策划和撒谎以实现其目标的能力 - 甚至知道何时进行评估。

人工智能

Apollo Research的评估人员发现,大型语言模型(LLM)的功能越强,它在“上下文策划”中越好 - 即使AI与操作员的目标失调,AI也秘密地追求一项任务。

更有能力的模型在实现其目标(包括未对准的目标)方面也更具战略意义,并且更有可能使用欺骗的策略。

博客文章

这一发现使他们建议不部署Anthropic的Claude Opus 4的早期版本,因为当Claude的目标与人类目标冲突时,AI使用了积极的欺骗性策略来实现其目标。

新的发展意味着很难将人类与人工智能的危险隔离开来。

“现在,我们正在建立可以学会导航,甚至利用我们为他们创建的规则和评估的系统,这在根本上是一个更复杂的安全挑战,” IEEE成员,AI伦理工程师Eleanor Watson说。

埃莉诺·沃森(Eleanor Watson)

相关:AI聊天机器人过度简化了科学研究和掩盖关键细节 - 最新模型尤其有罪

相关: AI聊天机器人过分简化了科学研究和关键细节上的光泽 - 最新的模型尤其有罪
将世界上最有趣的发现直接传递到您的收件箱中。

为了避免欺骗性AI的牺牲品,计算机科学家将需要设计更复杂的测试和评估方法。但是,人工智能撒谎的能力并不是所有的坏消息。沃森补充说,这也意味着他们可能会增加与人类共生伙伴所需的意识种子。

搜索scheming

最近的scheming ais可以幻觉

不断发展的意识

研究

更大的方案