为什么关心 LLM 中的提示缓存？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么关心 LLM 中的提示缓存？

2026年3月13日 17:09 33 Comments

使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。

来源:走向数据科学

，我们已经讨论了很多关于 RAG 是一个如何在自定义数据上利用 AI 力量的令人难以置信的工具。但是，无论我们谈论的是普通的 LLM API 请求、RAG 应用程序还是更复杂的 AI 代理，有一个常见问题是相同的。所有这些事情如何扩展？特别是，随着此类应用程序中请求数量的增加，成本和延迟会发生什么情况？特别是对于更高级的人工智能代理来说，它们可能包含对 LLM 的多次调用来处理单个用户查询，这些问题变得特别重要。

幸运的是，实际上，在调用 LLM 时，相同的输入标记通常会在多个请求中重复。用户会比其他问题提出更多的具体问题，人工智能应用程序中集成的系统提示和指令会在每个用户查询中重复出现，甚至对于单个提示，模型也会执行递归计算以生成完整的响应（还记得法学硕士如何通过逐个预测单词来生成文本吗？）。与其他应用程序类似，使用缓存概念可以显着帮助优化 LLM 请求成本和延迟。例如，根据 OpenAI 文档，提示缓存可以将延迟降低高达 80%，并将输入令牌成本降低高达 90%。

缓存怎么样？

一般来说，计算中的缓存并不是什么新想法。从本质上讲，缓存是一个临时存储数据的组件，以便可以更快地满足未来对相同数据的请求。通过这种方式，我们可以区分两种基本的缓存状态——缓存命中和缓存未命中。特别是：

当在缓存中找到请求的数据时，就会发生缓存命中，从而实现快速且廉价的检索。

当数据不在缓存中时，就会发生缓存未命中，迫使应用程序访问原始源，这会更加昂贵且耗时。

提示缓存和一些关于 LLM 推理的知识

例如，假设我们有以下提示：

晚餐我应该做什么？

这里

然后

基本的常见问题未命中提示 RAG 用户生成实际上廉价的输入 LLM 人工智能存储数据根据缓存数据复杂的普通的力量高级的集成的请求更多的 AI 问题应用程序成本降低延迟完整的利用相同的