人工智能在逻辑上犯了与人类相同的错误

测试了大型语言模型解决逻辑问题的能力。

来源:OSP网站大数据新闻

谷歌科学家测试了人类和最新大型语言模型解决三类逻辑问题的能力:形成逻辑结论、评估三段论的有效性以及华森选择问题。

根据结果,研究人员得出结论,人工智能往往会受到与人类相同的任务内容特征的影响。例如,如果一个错误的论点听起来有意义且合理,那么人类和机器都更有可能将其识别为正确的论点。

此外,在 Wason 的任务中,语言模型和人类一样糟糕,其中受试者会得到四张带有字母和数字的卡片,例如 D、F、3、7,并且必须回答应该翻开哪些卡片。检查诸如“如果卡片一侧有 D,则另一侧有 3”之类的语句的有效性。在这个例子中,人和机器都倾向于选择数字为 3 的卡片,尽管该声明并不意味着这样的卡片背面有一个 D

作者表示,为了确保基于人类数据训练的语言模型不会犯人为错误,它们需要接受额外的正式训练来训练逻辑思维。