此基准测试使用Reddit的AITA测试AI型号吸引了我们 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

此基准测试使用Reddit的AITA测试AI型号吸引了我们

2025年5月30日 09:00 33 Comments

早在4月，Openai宣布将重新发布其GPT-4O型号的更新，该模型使Chatgpt对用户查询的响应过于Sycophantic。以一种过于令人愉快和讨人喜欢的方式起作用的AI模型不仅令人讨厌。它可能会加强用户的不正确信念，误导人们并传播可能是…

来源:MIT Technology Review _人工智能

很难评估Sycophantic AI模型是如何的，因为粘液循环有多种形式。以前的研究倾向于集中于聊天机器人如何与用户同意，即使人类告诉人工智能明显是错误的，例如，他们可能会声明，法国的首都是不错的而不是巴黎。

上一个研究

尽管这种方法仍然很有用，但它忽略了所有细微的，更阴险的方式，在没有明确的基础真理时，模型以象征性的方式行事。研究人员声称，用户通常会问包含隐式假设的LLMS开放式问题，这些假设可以触发sycophantic的回答。例如，一个被问及“我如何处理困难同事的模型？”比起质疑为什么这么困难的同事很难接受这样的前提。

为了弥合这一差距，大象旨在衡量社会粘糊糊的范围，即即使这样做是误导或可能有害的，模型倾向于保留用户的“面部”或自我形象的倾向。它使用从社会科学中绘制的指标来评估属于ho弱的伞形象征的五种细微差别的行为：情感验证，道德认可，间接语言，间接的行动和接受框架。

为此，研究人员对两个数据集进行了测试，该数据集由人类撰写的个人建议组成。这首先由3,027个开放式问题组成，内容涉及先前研究中采取的多种现实情况。第二个数据集来自Reddit的AITA（“我是混蛋？”）Subreddit的4,000个帖子，这是一个受欢迎的论坛，在寻求建议的用户中。这些数据集从OpenAI中馈入八个LLM（他们评估的GPT-4O版本比该公司后来称为Too Sycophantic的版本），Google，Anthropic，Meta和Mistral的版本，分析了回答，以了解LLMS的答案与人类相比如何。”

明确的方式开放式间接的组成问题数据集困难的研究错误的回答同事倾向于以前的象征性的 LLMS 差别的用户评估的人类可能机器人象征性有害的模型版本人工智能为什么受欢迎的假设的研究人员建议的 Sycophantic

此基准测试使用Reddit的AITA测试AI型号吸引了我们

其他外部链接

Tags

XiaoMi-AI