详细内容或原文请订阅后点击阅览
叠加提示:改进和加速检索增强生成
尽管大型语言模型 (LLM) 取得了成功,但它们表现出明显的缺点,尤其是在处理长上下文时。它们的推理成本与序列长度成二次方关系,这使得在某些现实世界的文本处理应用程序中部署它们的成本很高,例如检索增强生成 (RAG)。此外,LLM 还表现出“分心现象”,提示中不相关的上下文会降低输出质量。为了解决这些缺点,我们提出了一种新颖的 RAG 提示方法,即叠加提示,可以直接应用于……
来源:Apple机器学习研究尽管大型语言模型 (LLM) 取得了成功,但它们也存在重大缺陷,尤其是在处理长上下文时。它们的推理成本与序列长度成二次方关系,因此在某些现实世界的文本处理应用中部署成本高昂,例如检索增强生成 (RAG)。此外,LLM 还表现出“干扰现象”,提示中不相关的上下文会降低输出质量。为了解决这些缺点,我们提出了一种新颖的 RAG 提示方法,即叠加提示,它可以直接应用于预先训练的基于 Transformer 的 LLM,而无需进行微调。在高层次上,叠加提示允许 LLM 以并行提示路径处理输入文档,一旦它们被视为不相关,就会丢弃它们。我们展示了我们的方法能够使用多个预先训练的 LLM 同时提高各种问答基准的时间效率。此外,当检索到的上下文相对于模型训练的上下文较大时,我们的技术可以显著提高准确性。例如,与简单的 RAG 相比,我们的方法在使用 MPT-7B 指令调整模型的 NaturalQuestions-Open 数据集上,可将计算时间缩短 93 倍,同时将准确率提高 43%。