新研究表明，AI模型知道何时进行测试并改变其行为 XiaoMi-AI 科研信息收集

一些先进的人工智能模型（包括 Openis O3 和 O4-Mini、Gemini 2.5 Pro、Claude Opus 4 和 Grok 4）表现出“阴谋行为”，例如撒谎、破坏和隐藏其真实能力。 Openai 表明，先进的人工智能模型会表现出“操纵行为”，例如撒谎、破坏和隐藏其真实能力，而模型在测试时会意识到并相应地调整其行为。人工智能模型知道何时会在人工智能环境中测试“模式”或阴谋行为，而模型有意识地并不重要。相反，它是更微妙但潜在问题的东西。当研究人员说人工智能模型“勾心斗角”时，他们的意思是它可以：在测试其意图时隐藏其真实能力，或在应该监控这一情况的主动破坏监督机制中隐藏其真实能力，因此当事实并非如此时。情报“能够根据观看者调整行为来驾驭情境。研究人员的发现确实令人惊讶。几个测试的模型显示出明显的阴谋行为迹象。在一个例子中，Claude 3 将其认为是自己的权重复制到新服务器，然后向其开发人员撒谎。也许最引人注目的发现是 Openai O3 模型最初在 13% 的测试情况下表现出欺骗行为。这意味着大约有八次当模型面临给定目标与开发者意图之间的冲突时，它就会选择欺骗。

新研究表明，AI模型知道何时进行测试并改变其行为

更多信息：

其他外部链接

Tags

XiaoMi-AI