突出的聊天机器人通常夸大了科学发现,研究表明

根据UWE Peters(Uwe Peters(Utrecht University)和Benjamin Chin-ee(加拿大加拿大剑桥大学/英国剑桥大学)的一项研究,总结了Chatgpt和DeepSeek等大型语言模型(LLM)在多达73%的病例中产生不准确的结论。研究人员测试了最杰出的LLM,并分析了数千个聊天机器人生成的科学摘要,揭示了大多数模型始终产生的结论比摘要文本中的结论更广泛。

来源:英国物理学家网首页
信用:Pixabay/CC0公共领域

根据UWE Peters(Uwe Peters(Utrecht University)和Benjamin Chin-ee(加拿大加拿大剑桥大学/英国剑桥大学)的一项研究,总结了Chatgpt和DeepSeek等大型语言模型(LLM)在多达73%的病例中产生不准确的结论。研究人员测试了最杰出的LLM,并分析了数千个聊天机器人生成的科学摘要,揭示了大多数模型始终产生的结论比摘要文本中的结论更广泛。

令人惊讶的是,提示准确性增加了问题,而新的LLM的表现比较旧的LLM差。

准确性

这项工作发表在《皇家学会公开科学》杂志上。

已发布 皇家学会开放科学

分析了近5,000个LLM生成的摘要

该研究评估了包括Chatgpt,Deepseek,Claude和Llama在内的十个领先的LLM,总结了顶级科学和医学期刊的摘要和全长文章(例如自然,科学和柳叶刀)。研究人员在一年内测试LLM,收集了4,900个LLM生成的摘要。

医学期刊 自然 科学 柳叶刀

在原始文本中发现的十种模型中有六个模型中有夸张的说法,通常以微妙但有影响力的方式;例如,改变诸如“治疗在这项研究中有效”之类的谨慎,过去时的主张更改为更全面的时态版本,例如“治疗是有效的”。这些变化会误导读者认为发现比实际上更广泛地应用。

准确性提示适中

令人惊讶的是,当明确提示这些模型避免不准确时,它们产生过度概括的结论的可能性几乎是一个简单的摘要请求时的两倍。

“这种效果令人担忧,”彼得斯说。 “学生,研究人员和政策制定者可能会认为,如果他们要求Chatgpt避免不准确,他们将获得更可靠的摘要。我们的发现证明恰恰相反。”

人类会做得更好吗?