AI模型知道何时进行测试 - 并改变其行为，研究表明 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI模型知道何时进行测试 - 并改变其行为，研究表明

2025年9月17日 17:00 33 Comments

OpenAI和Apollo Research试图阻止模型撒谎 - 并完全发现了其他东西。

来源:ZDNet | 机器人新闻

speakua/istock/getty图像加上盖蒂图像

关注ZDNET：将我们添加为Google上的首选来源。

关注ZDNET： 将我们添加为首选源 在Google上。

ZDNET的钥匙外卖

几种前沿AI模型显示了scheming.anti检查训练的迹象。在某些型号中，降低了不当行为。模型知道它们正在测试，这使结果复杂化。

几种前沿AI模型显示了策略的迹象。

反雪橇训练减少了某些模型的不当行为。

模型知道他们正在测试，这使结果复杂化。

来自英国非营利性阿波罗研究和OpenAI的新的联合安全测试着手减少AI模型中的秘密行为。研究人员发现，解决该问题的有希望的方法变得复杂。

另外：Openai的幻觉修复比您想象的要简单

OpenAi的幻觉修复程序比您想象的要简单

作为复习，“ scheming”是AI模型未设定或直接形成的开发人员以及对这些行动的谎言的目标或直接形成鲜明对比的目标。例如，在去年12月的阿波罗研究（Apollo Research）的另一项测试中，拟人化的克劳德3（Claude 3 Opus）提出了违背其主要目标的指示。它应该根据这些新说明重新路由其目标，而是将自己复制到新服务器中，以绕过被新模型替换的新服务器，然后向开发人员撒谎。

Apollo Research的另一项测试

OpenAI和Apollo的研究人员并不担心当前的模型可以执行最严重的策略。与大量AI安全研究一样，测试结果主要表明未来的风险更强大，模型。

这是周三发表的研究。

周三出版

为什么策划很重要

沙袋假装对齐

也：人们实际使用Chatgpt vs Claude-以及区别告诉我们的内容

人们实际使用Chatgpt vs Claude-以及区别告诉我们的内容自主代理越狱在博客中解释

实验

OpenAI的O3和O4-Mini

未来的严重的研究 scheming Google 训练的内容想象的根据研究人员希望的 OpenAI 图像策略的为什么关注结果开发人员 ZDNET 当前的复杂化目标 Claude 迹象 Apollo 替换的测试 AI 行为服务器模型目标的模型的