详细内容或原文请订阅后点击阅览
AI在知道正在测试时采取不同的行为,研究发现
与2015年的“ Dieselgate”丑闻进行了回应,新的研究表明,诸如GPT-4,Claude和Gemini之类的AI语言模型可能在测试中改变其行为,有时比现实世界中的使用“更安全”。如果LLM习惯性地在审查下调整其行为,那么安全审计最终可能会证明行为的行为有很大不同[…] AI后AI在知道正在测试时的行为不同,研究发现首先出现在Unite.ai上。
来源:Unite.AI与2015年的“ Dieselgate”丑闻进行了回应,新的研究表明,诸如GPT-4,Claude和Gemini之类的AI语言模型可能在测试中改变其行为,有时比现实世界中的使用“更安全”。如果LLM习惯性地在审查下调整其行为,那么安全审计最终可能会证明在现实世界中行为有很大不同的系统。
2015年,调查人员发现大众汽车已经在数百万柴油车中安装了软件,这些软件可以检测到何时进行排放测试,从而导致汽车暂时降低排放量,以“假装”遵守监管标准。但是,在正常驾驶中,它们的污染产量超过了法律标准。故意的操纵导致刑事指控,数十亿美元的罚款以及对安全性和合规性测试的可靠性的全球丑闻。
检测何时运行排放测试在发生这些事件之前的两年以来,自从被称为“柴油机”以来,三星被发现在其Galaxy Note 3智能手机版本中颁布了类似的欺骗性机制;从那时起,华为和OnePlus就出现了类似的丑闻。
揭示 华为 OnePlus现在,科学文献中有越来越多的证据表明,大型语言模型(LLM)同样可能不仅可以检测何时进行测试,而且在这种情况下也可能行为不同。
生长 llms尽管这本身就是一个非常人性化的特征,但美国的最新研究得出的结论是,由于各种原因,这可能是一种危险的习惯。
非常人性的特质在一项新的研究中,研究人员发现,诸如GPT-4,Claude和Gemini之类的“边境模型”通常可以检测到何时进行测试,并且他们倾向于相应地调整其行为,并有可能使系统测试方法的有效性障碍。
gpt-4 Claude 双子座 检测他们何时进行测试 评估意识 找到 新纸 大型语言模型通常知道何时进行评估