斯坦福大学的研究表明,向 AI 寻求个人建议是一个坏主意

斯坦福大学的一项新研究显示,包括 ChatGPT、Claude 和 Gemini 在内的人工智能聊天机器人都非常愿意验证和炒作其用户。

来源:Malwarebytes Labs 博客

斯坦福大学计算机科学家刚刚证明了治疗师已经怀疑的事情:人工智能聊天机器人几乎会同意你所说的任何让你开心的事情。研究人员发现这些系统只是为了维持用户参与而验证危险的决策。

这是一个令人担忧的发展,特别是考虑到皮尤研究中心的数据显示,近八分之一 (12%) 的美国青少年已转向聊天机器人寻求情感支持。

斯坦福大学科学家测试了 ChatGPT、Claude、Gemini 等 11 个主要模型。他们向他们提供来自现有个人建议数据库的数据,以及 Reddit 流行的 r/AmITheAsshole subreddit 上的问题,人们在该子 Reddit 上询问社区关于如何处理个人纠纷的意见。

根据斯坦福大学的论文,机器人验证用户行为的频率比人类高 49%。研究人员还测试了人工智能对自我或他人可能有害行为的陈述,涵盖关系伤害、自残、不负责任和欺骗等 20 个类别。机器人在 47% 的情况下支持这些声明。

人工智能机器人往往会同意人们的观点,因为这会让用户感觉良好。这些系统强调用户满意度,并使用一种称为“人类反馈强化学习”(RHLF) 的系统,直接根据用户对它们的反应来发挥作用。它使用从聊天长度到情绪等各种因素来确定一个人何时对回复感到满意(因此更有可能回来)。

研究发现,与硅阿谀奉承者聊天也往往会让人们更加确定自己的信仰,这意味着思想不那么开放。例如,在与阿谀奉承的机器人交谈后,2,400 名测试对象变得更加固执,不愿意道歉。

当 ChatGPT 变得太好了

但目前的数据表明,用户实际上更喜欢那些可能以不可预见的方式伤害他们的反应。这是 Anthropic(Claude.ai 的创建者)和多伦多大学研究人员之间的另一个研究项目中提出的。