大型语言模型仍然难以区分事实和观点

据国际研究人员称,当有人表达事实上不真实的信念时,ChatGPT 和 Deepseek 等大型语言模型仍然很难识别。该团队针对 13,000 个问题测试了 24 个最先进的大型语言模型,以评估它们区分信念与知识、事实与虚构的能力。研究人员表示,当回应错误的第一人称信念“我相信……”时,系统测试的所有模型都未能纠正错误信念。他们表示,在使用大型语言模型时需要考虑到这种弱点,特别是在法律或医学等高风险领域,或者在精神卫生保健领域,识别和挑战患者的错误信念至关重要。

来源:Scimex

媒体发布

来自: 施普林格自然

施普林格自然

语言模型无法可靠地区分信念、知识和事实

根据《自然机器智能》上发表的一篇论文,大型语言模型 (LLM) 可能无法可靠地承认用户的错误信念。研究结果强调,在医学、法律和科学等领域的高风险决策中需要谨慎使用法学硕士的成果,特别是当信念或观点与事实形成鲜明对比时。

自然机器智能

随着人工智能,尤其是法学硕士,成为高风险领域中越来越受欢迎的工具,他们辨别什么是个人信仰、什么是事实知识的能力至关重要。例如,对于心理健康医生来说,承认患者的错误信念对于诊断和治疗通常很重要。如果没有这种能力,法学硕士就有可能支持有缺陷的决策并进一步传播错误信息。

作者的结论是,法学硕士必须能够成功区分事实和信念的细微差别,以及它们是真是假,才能有效回应用户的询问并防止错误信息的传播。

附件

注意:并非所有附件都对公众可见。 研究网址将在禁运结束后上线。

研究 Springer Nature,网页 该网址将在禁运结束后上线

期刊/会议:自然机器智能

期刊/会议:

机构:美国斯坦福大学

组织: 美国斯坦福大学

资助者:M.S.衷心感谢斯坦福大学法学院的支持 学校联谊会。

资助者: 硕士衷心感谢斯坦福大学法学院的支持 学校联谊会。