详细内容或原文请订阅后点击阅览
AI是否有信心挣扎?AI是否有信心挣扎?
新的研究表明,诸如GPT-4O和Gemma 3之类的LLM即使在错误时也会坚持他们的初始答案 - 但在受到挑战时很快就会失去信心。过度自信和自我怀疑的这种令人惊讶的结合反映了人类的认知偏见,并引起了人们对AI可靠性的担忧。
来源:QudataAI是否有信心挣扎? 在一系列新的实验中,来自Google DeepMind和伦敦大学学院的研究人员发现,GPT-4O,Gemma 3和O1-Preiview等大型语言模型(LLMS)面临意外的双重挑战:他们在最初的答案中常常过度地表现出来,但在面对相反的观点时,他们的最初答案却变得不成比例。 llms是当今人工智能系统的核心,从虚拟助手到医疗保健,金融和教育的决策工具的所有事物。他们不断增长的影响不仅需要准确性,而且需要一致性和透明度,如何得出结论。但是,新发现表明,这些模型虽然高级,但并不总是以我们假设的理性精度运作。 这项研究的核心是悖论:LLM往往会固执地坚持他们的第一个回应,并显示研究人员称之为“选择支持的偏见”。然而,自相矛盾的是,当他们的答案受到挑战时 - 尤其是在反对建议的情况下,他们也经常失去信心并改变主意,即使建议有缺陷。 为了探讨这一点,研究人员设计了一个独特的两步测试框架。首先,LLM会回答一个二进制选择问题,例如确定哪个城市北部北部。然后,它将获得另一个LLM的“建议”,并具有不同水平的协议和信心。最后,原始模型必须做出最终决定。 实验中的一个关键创新是控制LLM是否可以“看到”其初始答案。当最初的响应可见时,该模型变得更加自信,并且不太可能改变主意。当隐藏起来时,它更加灵活,这表明其答案的记忆使判断力歪曲了。 在文章中阅读完整的研究:“在批评下的最初选择和不信任的过度自信会调节大语言模型中的思想变化”。
AI是否有信心挣扎?
在一系列新的实验中,来自Google DeepMind和伦敦大学学院的研究人员发现,GPT-4O,Gemma 3和O1-Preiview等大型语言模型(LLMS)面临意外的双重挑战:他们在最初的答案中常常过度地表现出来,但在面对相反的观点时,他们的最初答案却变得不成比例。
llms是当今人工智能系统的核心,从虚拟助手到医疗保健,金融和教育的决策工具的所有事物。他们不断增长的影响不仅需要准确性,而且需要一致性和透明度,如何得出结论。但是,新发现表明,这些模型虽然高级,但并不总是以我们假设的理性精度运作。
这项研究的核心是悖论:LLM往往会固执地坚持他们的第一个回应,并显示研究人员称之为“选择支持的偏见”。然而,自相矛盾的是,当他们的答案受到挑战时 - 尤其是在反对建议的情况下,他们也经常失去信心并改变主意,即使建议有缺陷。
为了探讨这一点,研究人员设计了一个独特的两步测试框架。首先,LLM会回答一个二进制选择问题,例如确定哪个城市北部北部。然后,它将获得另一个LLM的“建议”,并具有不同水平的协议和信心。最后,原始模型必须做出最终决定。
实验中的一个关键创新是控制LLM是否可以“看到”其初始答案。当最初的响应可见时,该模型变得更加自信,并且不太可能改变主意。当隐藏起来时,它更加灵活,这表明其答案的记忆使判断力歪曲了。在文章中阅读完整的研究:“在批评下的最初选择和不信任的过度自信会调节大语言模型中的思想变化”。