详细内容或原文请订阅后点击阅览
超越提示缓存:您还应该在 RAG 管道中缓存 5 种内容
跨 RAG 管道缓存层的实用指南,从查询嵌入到完整的查询响应重用超越提示缓存:您应该在 RAG 管道中缓存的 5 种其他内容首先出现在 Towards Data Science 上。
来源:走向数据科学,我们详细讨论了法学硕士中的提示缓存是什么,以及它如何在运行高流量的人工智能应用程序时为您节省大量金钱和时间。但除了提示缓存之外,缓存的概念还可以用于人工智能应用程序的其他几个部分,例如 RAG 检索缓存或整个查询响应对的缓存,从而进一步节省成本和时间。在这篇文章中,我们将更详细地了解人工智能应用程序的哪些其他组件可以从缓存机制中受益。那么,让我们看看除了提示缓存之外的 AI 缓存。
为什么缓存其他东西有意义?
因此,提示缓存是有意义的,因为我们希望系统提示和指令每次都以完全相同的格式作为输入传递到 LLM。但除此之外,我们还可以预期用户查询会重复或在某种程度上相似。特别是在谈论在组织内部署 RAG 或其他 AI 应用程序时,我们期望大部分查询在语义上相似,甚至相同。当然,组织内的用户群体大多数时候都会对类似的事情感兴趣,例如“根据人力资源政策,员工有权享受多少天的年假”,或者“提交差旅费的流程是什么”。然而,从统计数据来看,多个用户不太可能提出完全相同的查询(完全相同的单词允许精确匹配),除非我们在应用程序的 UI 中向他们提供建议的标准化查询。尽管如此,用户很有可能使用语义上非常相似的不同单词提出查询。因此,除了传统缓存之外,考虑语义缓存也是有意义的。
这样我们就可以进一步区分两种类型的缓存:
正如我之前的文章中所示,一个非常简单的 RAG 管道看起来像这样:
。 。 。
1.查询嵌入缓存
哪些区号对应于希腊雅典?
