ChatGPT 被问到同一问题 10 次。答案不断变化

ChatGPT 听起来很有说服力,但这项研究表明它仍然难以辨别真相。华盛顿州立大学教授 Mesut Cicek 和他的团队通过从科学研究中得出的假设反复评估 ChatGPT。人工智能被要求决定每个陈述是否得到研究的支持——本质上是判断它是否[...]

来源:SciTech日报

ChatGPT 听起来很有说服力,但这项研究表明它仍然难以辨别真相。

华盛顿州立大学教授 Mesut Cicek 和他的团队通过从科学研究中得出的假设来反复评估 ChatGPT。人工智能被要求决定每个陈述是否得到研究支持——本质上是判断它是真是假。

研究人员总共测试了 700 多个假设,并将每个假设提交了 10 次,以检验答案的一致性。

准确度结果和性能限制

在 2024 年最初的实验中,ChatGPT 的回答正确率为 76.5%。当 2025 年重复该研究时,准确率略有上升至 80%。然而,一旦将结果调整为随机猜测,性能看起来就不那么可靠了。 AI 只比机会好 60% 左右,研究人员将其描述为更接近低 D,而不是强大的表现。

该系统在识别虚假陈述方面尤其困难,正确标记错误的概率仅为 16.4%。这也表现出不一致。当给出完全相同的提示 10 次时,ChatGPT 仅在大约 73% 的情况下产生一致的结果。

对相同问题的回答不一致

“我们不仅在谈论准确性,我们还在谈论不一致,因为如果你一次又一次地问同一个问题,你会得到不同的答案,”西塞克说,他是华盛顿州立大学卡森商学院营销和国际商务系的副教授,也是新出版物的主要作者。

“我们使用了 10 个提示,提出了相同的问题。一切都是相同的。它会回答 true。接下来,它说它是 false。它是 true,它是 false,false,true。有几个案例有 5 个 true,5 个 false。”

AI 流畅度与真正理解

Cicek 表示,研究结果表明,具有真正推理能力的通用人工智能可能仍然比一些人预期的还要遥远。

研究设计和方法