Large language models still struggle to tell fact from opinion
据国际研究人员称,当有人表达事实上不真实的信念时,ChatGPT 和 Deepseek 等大型语言模型仍然很难识别。该团队针对 13,000 个问题测试了 24 个最先进的大型语言模型,以评估它们区分信念与知识、事实与虚构的能力。研究人员表示,当回应错误的第一人称信念“我相信……”时,系统测试的所有模型都未能纠正错误信念。他们表示,在使用大型语言模型时需要考虑到这种弱点,特别是在法律或医学等高风险领域,或者在精神卫生保健领域,识别和挑战患者的错误信念至关重要。