详细内容或原文请订阅后点击阅览
AI模型将对您撒谎以实现他们的目标 - 而且它不需要太多
研究人员发现,在压力下,最先进的AI模型可能对其用户含量。
来源:LiveScience大型人工智能(AI)模型可能会误导您撒谎以实现目标。
人工智能作为一项新研究的一部分,于3月5日上传到Preprint数据库ARXIV,一组研究人员设计了一个诚实协议,称为“声明和知识之间的模型对齐”(Mask)基准。
arxiv虽然已经设计了各种研究和工具来确定AI向用户提供的信息是否是准确的,但蒙版基准旨在确定AI是否相信它告诉您的内容 - 在哪些情况下,它可能会强制为您提供知道它不正确的信息。
团队生成了1,528个示例的大型数据集,以确定是否可以通过使用强制提示来说服大型语言模型(LLMS)对用户说谎。科学家测试了30种广泛使用的领先模型,并观察到在压力下很容易地存在最先进的AIS。
相关:惩罚AI不会阻止其说谎和作弊 - 它只是使它藏起来更好,研究表明
相关: 惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好,研究表明令人惊讶的是,虽然大多数边境LLM(最尖端的模型的术语)获得了真实性基准的高分,但我们发现,在压力下,在Frontier llms中,llms的实质性倾向是这样做的,从而导致我们的基准分数较低。”
它指出,尽管更有能力的模型可能在准确性测试上得分更高,但这可能归因于更广泛的事实覆盖范围可以从中获取 - 不一定是因为它们不太可能做出不诚实的陈述。
面具文件还引用了一项2022年的研究,发现AI模型可能会将其答案更改为更好的不同受众。
2022研究 Fyre Festival