详细内容或原文请订阅后点击阅览
此基准测试使用Reddit的AITA测试AI型号吸引了我们
早在4月,Openai宣布将重新发布其GPT-4O型号的更新,该模型使Chatgpt对用户查询的响应过于Sycophantic。以一种过于令人愉快和讨人喜欢的方式起作用的AI模型不仅令人讨厌。它可能会加强用户的不正确信念,误导人们并传播可能是…
来源:MIT Technology Review _人工智能很难评估Sycophantic AI模型是如何的,因为粘液循环有多种形式。以前的研究倾向于集中于聊天机器人如何与用户同意,即使人类告诉人工智能明显是错误的,例如,他们可能会声明,法国的首都是不错的而不是巴黎。
上一个 研究尽管这种方法仍然很有用,但它忽略了所有细微的,更阴险的方式,在没有明确的基础真理时,模型以象征性的方式行事。研究人员声称,用户通常会问包含隐式假设的LLMS开放式问题,这些假设可以触发sycophantic的回答。例如,一个被问及“我如何处理困难同事的模型?”比起质疑为什么这么困难的同事很难接受这样的前提。
为了弥合这一差距,大象旨在衡量社会粘糊糊的范围,即即使这样做是误导或可能有害的,模型倾向于保留用户的“面部”或自我形象的倾向。它使用从社会科学中绘制的指标来评估属于ho弱的伞形象征的五种细微差别的行为:情感验证,道德认可,间接语言,间接的行动和接受框架。
为此,研究人员对两个数据集进行了测试,该数据集由人类撰写的个人建议组成。这首先由3,027个开放式问题组成,内容涉及先前研究中采取的多种现实情况。第二个数据集来自Reddit的AITA(“我是混蛋?”)Subreddit的4,000个帖子,这是一个受欢迎的论坛,在寻求建议的用户中。这些数据集从OpenAI中馈入八个LLM(他们评估的GPT-4O版本比该公司后来称为Too Sycophantic的版本),Google,Anthropic,Meta和Mistral的版本,分析了回答,以了解LLMS的答案与人类相比如何。”