为什么语言模型在对话中“迷失” XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么语言模型在对话中“迷失”

2025年5月12日 15:11 33 Comments

Microsoft Research and Salesforce的一份新论文发现，即使是在分阶段而不是全部给出指令时，即使最有能力的大型语言模型（LLM）也会崩溃。作者发现，当提示在多个转弯中分开时，六个任务中的性能平均下降了39％：更多[…]为什么语言模型在对话中“迷失”的帖子首先出现在unite.ai上。

来源:Unite.AI

Microsoft Research and Salesforce的一份新论文发现，即使是在分阶段而不是全部给出指令时，即使最有能力的大型语言模型（LLM）也会崩溃。作者发现，当提示在多个转弯中分开时，六个任务中的性能平均下降了39％：

大语言模型阶段 在多个回合上拆分

单转对话（左）获得了最佳结果，但对于最终用户来说是不自然的。多转交谈（右）甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。资料来源：https：//arxiv.org/pdf/2505.06120

单转对话（左）获得了最佳结果，但对于最终用户来说是不自然的。多转交谈（右）甚至发现了排名最高和最具性能的LLMS在对话中失去了有效的动力。

更引人注目的是，响应的可靠性需要一个顽强的模型，例如Chatgpt-4.1和Gemini 2.5 Pro在近乎完美的答案和明显的失败之间摆动，具体取决于如何用相同的任务措辞；此外，在此过程中，输出一致性可以下降一半以上。

可靠性 chatgpt-4.1 gemini 2.5 pro

为了探索这种行为，本文介绍了一种称为Sharding*的方法，该方法将完全指定的提示分为较小的片段，并将它们一次释放到对话中。

sharding

在最基本的角度上，这等同于在餐厅给出凝聚力和全面的单一订单，使服务员无事可做，只能确认请求；否则决定协作攻击此事：

餐厅对话的两个极端版本（不是来自新论文，仅出于说明目的）。

碎片 即使这些见解被证明是不正确的，或者无关的

实际上，研究人员注意到我们许多人轶事发现了什么 - 使对话重回正轨的最佳方法是与LLM进行新的对话。

O3 † ^O3†

多转单转服务员下降实际上相同的 2.5 LLMS 给出响应的正确的不正确最终用户任务餐厅说明明显的 4.1 方法基本的全面的自然的研究人员有效的较小的有能力的 LLM 注意到不正确的对话模型对话的一致性发现提示可靠性指定的

为什么语言模型在对话中“迷失”

其他外部链接

Tags

XiaoMi-AI