详细内容或原文请订阅后点击阅览
为什么关心 LLM 中的提示缓存?
使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。
来源:走向数据科学,我们已经讨论了很多关于 RAG 是一个如何在自定义数据上利用 AI 力量的令人难以置信的工具。但是,无论我们谈论的是普通的 LLM API 请求、RAG 应用程序还是更复杂的 AI 代理,有一个常见问题是相同的。所有这些事情如何扩展?特别是,随着此类应用程序中请求数量的增加,成本和延迟会发生什么情况?特别是对于更高级的人工智能代理来说,它们可能包含对 LLM 的多次调用来处理单个用户查询,这些问题变得特别重要。
幸运的是,实际上,在调用 LLM 时,相同的输入标记通常会在多个请求中重复。用户会比其他问题提出更多的具体问题,人工智能应用程序中集成的系统提示和指令会在每个用户查询中重复出现,甚至对于单个提示,模型也会执行递归计算以生成完整的响应(还记得法学硕士如何通过逐个预测单词来生成文本吗?)。与其他应用程序类似,使用缓存概念可以显着帮助优化 LLM 请求成本和延迟。例如,根据 OpenAI 文档,提示缓存可以将延迟降低高达 80%,并将输入令牌成本降低高达 90%。
缓存怎么样?
一般来说,计算中的缓存并不是什么新想法。从本质上讲,缓存是一个临时存储数据的组件,以便可以更快地满足未来对相同数据的请求。通过这种方式,我们可以区分两种基本的缓存状态——缓存命中和缓存未命中。特别是:
提示缓存和一些关于 LLM 推理的知识
例如,假设我们有以下提示:
晚餐我应该做什么?
这里
然后
