AI模型知道何时进行测试 - 并改变其行为,研究表明

OpenAI和Apollo Research试图阻止模型撒谎 - 并完全发现了其他东西。

来源:ZDNet | 机器人新闻
speakua/istock/getty图像加上盖蒂图像

关注ZDNET:将我们添加为Google上的首选来源。

关注ZDNET: 将我们添加为首选源 在Google上。

ZDNET的钥匙外卖

    几种前沿AI模型显示了scheming.anti检查训练的迹象。在某些型号中,降低了不当行为。模型知道它们正在测试,这使结果复杂化。
  • 几种前沿AI模型显示了策略的迹象。
  • 反雪橇训练减少了某些模型的不当行为。
  • 模型知道他们正在测试,这使结果复杂化。
  • 来自英国非营利性阿波罗研究和OpenAI的新的联合安全测试着手减少AI模型中的秘密行为。研究人员发现,解决该问题的有希望的方法变得复杂。

    另外:Openai的幻觉修复比您想象的要简单

    OpenAi的幻觉修复程序比您想象的要简单

    作为复习,“ scheming”是AI模型未设定或直接形成的开发人员以及对这些行动的谎言的目标或直接形成鲜明对比的目标。例如,在去年12月的阿波罗研究(Apollo Research)的另一项测试中,拟人化的克劳德3(Claude 3 Opus)提出了违背其主要目标的指示。它应该根据这些新说明重新路由其目标,而是将自己复制到新服务器中,以绕过被新模型替换的新服务器,然后向开发人员撒谎。

    Apollo Research的另一项测试

    OpenAI和Apollo的研究人员并不担心当前的模型可以执行最严重的策略。与大量AI安全研究一样,测试结果主要表明未来的风险更强大,模型。

    这是周三发表的研究。

    周三出版

    为什么策划很重要

    沙袋 假装对齐

    也:人们实际使用Chatgpt vs Claude-以及区别告诉我们的内容

    人们实际使用Chatgpt vs Claude-以及区别告诉我们的内容 自主代理 越狱 在博客中解释

    实验

    OpenAI的O3和O4-Mini