AI在知道正在测试时采取不同的行为，研究发现 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI在知道正在测试时采取不同的行为，研究发现

2025年6月4日 13:39 33 Comments

与2015年的“ Dieselgate”丑闻进行了回应，新的研究表明，诸如GPT-4，Claude和Gemini之类的AI语言模型可能在测试中改变其行为，有时比现实世界中的使用“更安全”。如果LLM习惯性地在审查下调整其行为，那么安全审计最终可能会证明行为的行为有很大不同[…] AI后AI在知道正在测试时的行为不同，研究发现首先出现在Unite.ai上。

来源:Unite.AI

与2015年的“ Dieselgate”丑闻进行了回应，新的研究表明，诸如GPT-4，Claude和Gemini之类的AI语言模型可能在测试中改变其行为，有时比现实世界中的使用“更安全”。如果LLM习惯性地在审查下调整其行为，那么安全审计最终可能会证明在现实世界中行为有很大不同的系统。

2015年，调查人员发现大众汽车已经在数百万柴油车中安装了软件，这些软件可以检测到何时进行排放测试，从而导致汽车暂时降低排放量，以“假装”遵守监管标准。但是，在正常驾驶中，它们的污染产量超过了法律标准。故意的操纵导致刑事指控，数十亿美元的罚款以及对安全性和合规性测试的可靠性的全球丑闻。

检测何时运行排放测试

在发生这些事件之前的两年以来，自从被称为“柴油机”以来，三星被发现在其Galaxy Note 3智能手机版本中颁布了类似的欺骗性机制；从那时起，华为和OnePlus就出现了类似的丑闻。

揭示华为 OnePlus

现在，科学文献中有越来越多的证据表明，大型语言模型（LLM）同样可能不仅可以检测何时进行测试，而且在这种情况下也可能行为不同。

生长 llms

尽管这本身就是一个非常人性化的特征，但美国的最新研究得出的结论是，由于各种原因，这可能是一种危险的习惯。

非常人性的特质

在一项新的研究中，研究人员发现，诸如GPT-4，Claude和Gemini之类的“边境模型”通常可以检测到何时进行测试，并且他们倾向于相应地调整其行为，并有可能使系统测试方法的有效性障碍。

gpt-4 Claude 双子座 检测他们何时进行测试 评估意识 找到新纸 大型语言模型通常知道何时进行评估

方法

^††

不同的研究合规性 LLM 系统测试标准类似的测试方法检测安全性丑闻危险的进行 Claude 有效性研究人员语言美国测试柴油机可能行为模型 2015 GPT 测试的 Gemini 可靠性倾向于

AI在知道正在测试时采取不同的行为，研究发现

方法

其他外部链接

Tags

XiaoMi-AI