比特随机指标改变了我对 RAG 和代理的看法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

比特随机指标改变了我对 RAG 和代理的看法

2026年3月26日 10:31 33 Comments

为什么在纸面上看起来很出色的检索在真实的 RAG 和代理工作流程中仍然表现得像噪音《我如何看待 RAG 和代理》中的“比特随机指标发生了什么变化”一文首先出现在《走向数据科学》上。

来源:走向数据科学

受到 ICLR 2026 博客文章/文章的启发，99% 的成功悖论：当近乎完美的检索等于随机选择

作为爱丁堡 Victor Lavrenko 多媒体信息检索实验室的信息检索博士，我在 2000 年代末接受过该实验室的培训，长期以来，我一直通过传统 IR 思维的框架来看待检索：

我们是否检索到至少一个相关块？

召回率上升了吗？

排名有进步吗？

下游答案质量在基准测试中看起来是否可以接受？

这些仍然是有用的问题。但在阅读了最近关于随机比特 (BoR) 的研究之后，我认为它们对于我们许多人现在正在实际构建的 Agentic 系统来说是不完整的。

ICLR 博文加深了我在生产 LLM 系统中一段时间以来的感受：检索质量应该考虑到我们找到了多少好的内容，以及我们带来了多少不相关的材料。换句话说，当我们加大召回力度时，我们也会增加环境污染的风险。

BoR 的有用之处在于它为我们提供了一种语言。BoR 告诉我们检索是否真正具有选择性，或者我们是否主要通过在上下文窗口中填充更多材料来取得成功。当 BoR 下降时，表明检索到的捆绑包相对于偶然性变得越来越不具有辨别力。在实践中，这通常与模型被迫阅读更多垃圾、更多重叠或更弱相关的材料有关。

重要的细微差别是 BoR 并不直接测量模型在阅读提示时的“感受”。它衡量相对于随机机会的检索选择性。但较低的选择性往往与更多不相关的背景、更迅速的污染、更多的注意力稀释和更差的下游绩效同时发生。简而言之，BoR 有助于告诉我们何时检索仍然具有选择性以及何时开始退化为上下文填充。

这个想法对 RAG 和代理来说比对经典搜索更重要。

高成功@K，

和：

内存，

具有选择性文章相关的材料是否质量多媒体迅速的较低的仍然是不完整的 BoR 有用的随机经典实验室考虑到污染的上下文阅读信息检索重要的注意力环境污染同时发生 ICLR 更多的检索偶然性一段时间实验室的完整的召回不相关的