为什么语言模型在对话中“迷失”

Microsoft Research and Salesforce的一份新论文发现,即使是在分阶段而不是全部给出指令时,即使最有能力的大型语言模型(LLM)也会崩溃。作者发现,当提示在多个转弯中分开时,六个任务中的性能平均下降了39%:更多[…]为什么语言模型在对话中“迷失”的帖子首先出现在unite.ai上。

来源:Unite.AI

Microsoft Research and Salesforce的一份新论文发现,即使是在分阶段而不是全部给出指令时,即使最有能力的大型语言模型(LLM)也会崩溃。作者发现,当提示在多个转弯中分开时,六个任务中的性能平均下降了39%:

大语言模型 阶段 在多个回合上拆分

单转对话(左)获得了最佳结果,但对于最终用户来说是不自然的。多转交谈(右)甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。资料来源:https://arxiv.org/pdf/2505.06120

单转对话(左)获得了最佳结果,但对于最终用户来说是不自然的。多转交谈(右)甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。

更引人注目的是,响应的可靠性需要一个顽强的模型,例如Chatgpt-4.1和Gemini 2.5 Pro在近乎完美的答案和明显的失败之间摆动,具体取决于如何用相同的任务措辞;此外,在此过程中,输出一致性可以下降一半以上。

可靠性 chatgpt-4.1 gemini 2.5 pro

为了探索这种行为,本文介绍了一种称为Sharding*的方法,该方法将完全指定的提示分为较小的片段,并将它们一次释放到对话中。

sharding

在最基本的角度上,这等同于在餐厅给出凝聚力和全面的单一订单,使服务员无事可做,只能确认请求;否则决定协作攻击此事:

餐厅对话的两个极端版本(不是来自新论文,仅出于说明目的)。

碎片 即使这些见解被证明是不正确的,或者无关的

实际上,研究人员注意到我们许多人轶事发现了什么 - 使对话重回正轨的最佳方法是与LLM进行新的对话。

O3 † O3†