更少的是:为什么检索更少的文档可以改善AI答案

检索功能的生成(RAG)是一种将语言模型与外部知识源相结合的AI系统的方法。简而言之,AI首先搜索与用户查询有关的相关文档(例如文章或网页),然后使用这些文档来生成更准确的答案。庆祝了这种方法[…]较少的帖子更多:为什么检索更少的文档可以改善AI答案,首先是在Unite.ai上出现。

来源:Unite.AI

检索功能的生成(RAG)是一种将语言模型与外部知识源相结合的AI系统的方法。简而言之,AI首先搜索与用户查询有关的相关文档(例如文章或网页),然后使用这些文档来生成更准确的答案。该方法因帮助大型语言模型(LLM)的事实而闻名,并通过将其响应扎根在真实数据中来减少幻觉。

检索 - 杰出的一代(抹布) 大语言模型(LLMS)

直觉上,人们可能会认为AI检索的文档越多,答案就更好。但是,最近的研究表明了一个令人惊讶的转折:在将信息提供给AI时,有时更少的是更多。

更少的文档,更好的答案

耶路撒冷希伯来大学研究人员的一项新研究探讨了赋予抹布系统的文档数量如何影响其性能。至关重要的是,他们保持文本总量恒定的总量 - 这意味着如果提供了更少的文档,则这些文档会稍微扩展,以填补与许多文件相同的长度。这样,任何性能差异都可以归因于文档的数量,而不是仅仅具有较短的输入。

新研究 编号

研究人员使用了带有琐事问题的提问数据集(Musique),每个数据集(Musique)最初与20个Wikipedia段落配对(其中只有一些实际上包含答案,其余的是干扰器)。通过将文档的数量从20个降低到2-4个真正相关的文档,并用一些额外的上下文来填充那些文档以保持一致的长度 - 它们创建了AI的场景,其中AI的材料较少可考虑,但总的总单词几乎相同。

qwen-2

来源:Levy等。

为什么少于rag

随机干扰因素比现实的干扰物

重新思考抹布:未来方向

AI系统获得更大的上下文Windows