详细内容或原文请订阅后点击阅览
为什么语言模型在对话中“迷失”
Microsoft Research and Salesforce的一份新论文发现,即使是在分阶段而不是全部给出指令时,即使最有能力的大型语言模型(LLM)也会崩溃。作者发现,当提示在多个转弯中分开时,六个任务中的性能平均下降了39%:更多[…]为什么语言模型在对话中“迷失”的帖子首先出现在unite.ai上。
来源:Unite.AIMicrosoft Research and Salesforce的一份新论文发现,即使是在分阶段而不是全部给出指令时,即使最有能力的大型语言模型(LLM)也会崩溃。作者发现,当提示在多个转弯中分开时,六个任务中的性能平均下降了39%:
大语言模型 阶段 在多个回合上拆分单转对话(左)获得了最佳结果,但对于最终用户来说是不自然的。多转交谈(右)甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。资料来源:https://arxiv.org/pdf/2505.06120
单转对话(左)获得了最佳结果,但对于最终用户来说是不自然的。多转交谈(右)甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。更引人注目的是,响应的可靠性需要一个顽强的模型,例如Chatgpt-4.1和Gemini 2.5 Pro在近乎完美的答案和明显的失败之间摆动,具体取决于如何用相同的任务措辞;此外,在此过程中,输出一致性可以下降一半以上。
可靠性 chatgpt-4.1 gemini 2.5 pro为了探索这种行为,本文介绍了一种称为Sharding*的方法,该方法将完全指定的提示分为较小的片段,并将它们一次释放到对话中。
sharding在最基本的角度上,这等同于在餐厅给出凝聚力和全面的单一订单,使服务员无事可做,只能确认请求;否则决定协作攻击此事:
餐厅对话的两个极端版本(不是来自新论文,仅出于说明目的)。
碎片 即使这些见解被证明是不正确的,或者无关的实际上,研究人员注意到我们许多人轶事发现了什么 - 使对话重回正轨的最佳方法是与LLM进行新的对话。
O3 † O3†