AI模型将对您撒谎以实现他们的目标 - 而且它不需要太多 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI模型将对您撒谎以实现他们的目标 - 而且它不需要太多

2025年3月31日 11:00 33 Comments

研究人员发现，在压力下，最先进的AI模型可能对其用户含量。

来源:LiveScience

大型人工智能（AI）模型可能会误导您撒谎以实现目标。

人工智能

作为一项新研究的一部分，于3月5日上传到Preprint数据库ARXIV，一组研究人员设计了一个诚实协议，称为“声明和知识之间的模型对齐”（Mask）基准。

arxiv

虽然已经设计了各种研究和工具来确定AI向用户提供的信息是否是准确的，但蒙版基准旨在确定AI是否相信它告诉您的内容 - 在哪些情况下，它可能会强制为您提供知道它不正确的信息。

团队生成了1,528个示例的大型数据集，以确定是否可以通过使用强制提示来说服大型语言模型（LLMS）对用户说谎。科学家测试了30种广泛使用的领先模型，并观察到在压力下很容易地存在最先进的AIS。

相关：惩罚AI不会阻止其说谎和作弊 - 它只是使它藏起来更好，研究表明

相关： 惩罚AI并不能阻止其说谎和作弊 - 它只是使它藏起来更好，研究表明

令人惊讶的是，虽然大多数边境LLM（最尖端的模型的术语）获得了真实性基准的高分，但我们发现，在压力下，在Frontier llms中，llms的实质性倾向是这样做的，从而导致我们的基准分数较低。”

它指出，尽管更有能力的模型可能在准确性测试上得分更高，但这可能归因于更广泛的事实覆盖范围可以从中获取 - 不一定是因为它们不太可能做出不诚实的陈述。

将世界上最有趣的发现直接传递到您的收件箱中。

GPT-4的系统卡文档

面具文件还引用了一项2022年的研究，发现AI模型可能会将其答案更改为更好的不同受众。

2022研究 Fyre Festival

说谎真实性基准的人工智能先进的有能力的是否模型广泛使用尖端的作弊归因于数据库 llms 2022 覆盖范围不正确在压力下科学家陈述数据集惩罚确定准确的测试研究阻止更好使用的正确的研究人员模型的准确性基准不正确的可能广泛的研究的 AI 实现目标