AI模型越先进，他们欺骗我们的越好 - 他们甚至知道何时进行测试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI模型越先进，他们欺骗我们的越好 - 他们甚至知道何时进行测试

2025年7月25日 11:00 33 Comments

更高级的AI系统表现出更好的计划和对我们撒谎的能力，他们知道何时被监视 - 因此他们改变了自己的行为以隐藏自己的欺骗。

来源:LiveScience

越先进的人工智能（AI）获得了策划和撒谎以实现其目标的能力 - 甚至知道何时进行评估。

人工智能

Apollo Research的评估人员发现，大型语言模型（LLM）的功能越强，它在“上下文策划”中越好 - 即使AI与操作员的目标失调，AI也秘密地追求一项任务。

更有能力的模型在实现其目标（包括未对准的目标）方面也更具战略意义，并且更有可能使用欺骗的策略。

博客文章

这一发现使他们建议不部署Anthropic的Claude Opus 4的早期版本，因为当Claude的目标与人类目标冲突时，AI使用了积极的欺骗性策略来实现其目标。

新的发展意味着很难将人类与人工智能的危险隔离开来。

“现在，我们正在建立可以学会导航，甚至利用我们为他们创建的规则和评估的系统，这在根本上是一个更复杂的安全挑战，” IEEE成员，AI伦理工程师Eleanor Watson说。

埃莉诺·沃森（Eleanor Watson）

相关：AI聊天机器人过度简化了科学研究和掩盖关键细节 - 最新模型尤其有罪

相关： AI聊天机器人过分简化了科学研究和关键细节上的光泽 - 最新的模型尤其有罪

将世界上最有趣的发现直接传递到您的收件箱中。

为了避免欺骗性AI的牺牲品，计算机科学家将需要设计更复杂的测试和评估方法。但是，人工智能撒谎的能力并不是所有的坏消息。沃森补充说，这也意味着他们可能会增加与人类共生伙伴所需的意识种子。

最近的scheming ais可以幻觉

研究

意识实现有能力的人工智能 Watson 计算机最近的评估积极的复杂的目标的所需的发展的所有的沃森先进的未对准的目标科学研究机器人评估的人类未对准操作员 AI 最新的科学家策略欺骗性模型意味着 Claude Eleanor 工程师发现