用代理知识蒸馏克服失败的文档摄入和抹布策略

引入金字塔搜索方法邮政克服了未能通过代理知识蒸馏的文档摄入和抹布策略,首先出现在数据科学上。

来源:走向数据科学

简介

许多生成的AI用例仍围绕着检索增强发电(RAG),但始终没有用户期望。尽管对RAG改进甚至将代理增加的研究越来越多,但许多解决方案仍然无法返回详尽的结果,错过了至关重要的信息,这些信息是至关重要但很少在文档中提到的,需要多次搜索迭代,并且通常很难跨多个文档调和关键主题。最重要的是,许多实施方式仍然依赖于将尽可能多的“相关”信息与详细的系统和用户提示一起塞入模型上下文窗口中。协调所有这些信息通常超过模型的认知能力,并损害响应质量和一致性。

检索增强

这是我们的代理知识蒸馏 +金字塔搜索方法发挥作用的地方。我的团队,吉姆·布朗(Jim Brown),梅森·索特尔(Mason Sawtell),桑迪·贝森(Sandi Besen)和我采取了一种训练方法来记录摄入量,而不是追求最佳的策略,检索算法或推理时间推理方法。

吉姆·布朗 Mason Sawtell sandi besen i

我们利用摄入时间的模型的全部能力,专注于从文档数据集中提取和保留最有意义的信息。从根本上讲,这从根本上简化了抹布过程,允许该模型将其推理能力指导到解决用户/系统指令的问题,而不是努力地了解文档块跨文档的格式和不同信息。

我们专门针对通常难以评估的高价值问题,因为它们具有多个正确的答案或解决方案路径。 SEC Edgar网站 有关Edgar的信息,可以免费下载 Edgar公共搜索 SEC隐私政策

构建金字塔:代理知识蒸馏的工作原理

概述

如何提炼文档并构建金字塔:

将文档转换为Markdown: 标记