使用 OpenAI API 进行提示缓存:完整的 Python 实践教程

使您的 OpenAI 应用程序更快、更便宜、更高效的分步指南使用 OpenAI API 进行提示缓存:完整的 Python 实践教程首先出现在 Towards Data Science 上。

来源:走向数据科学

在我之前的文章中,提示缓存 — 它是什么、它是如何工作的,以及它如何在运行高流量的人工智能应用程序时为您节省大量金钱和时间。在今天的文章中,我将引导您专门使用 OpenAI 的 API 来实现提示缓存,并讨论一些常见的陷阱。

关于提示缓存的简短提醒

在开始动手之前,让我们简单回顾一下提示缓存的概念到底是什么。提示缓存是 OpenAI API 或 Claude API 等前沿模型 API 服务中提供的一项功能,允许缓存和重用 LLM 输入中经常重复的部分。这些重复的部分可能是每次运行人工智能应用程序时传递给模型的系统提示或指令,以及任何其他可变内容,例如用户的查询或从知识库检索的信息。为了能够通过提示缓存命中缓存,提示的重复部分必须位于其开头,即提示前缀。此外,为了激活提示缓存,该前缀必须超过一定的阈值(例如,对于 OpenAI,前缀应超过 1,024 个令牌,而 Claude 对于不同的模型有不同的最小缓存长度)。只要满足这两个条件(重复的令牌作为前缀超过 API 服务和模型定义的大小阈值),就可以激活缓存,以在运行 AI 应用程序时实现规模经济。

与 RAG 或其他 AI 应用程序中其他组件中的缓存不同,提示缓存在 LLM 的内部过程中在令牌级别运行。特别是,LLM 推理分两步进行:

  • 预填充,即LLM考虑用户提示生成第一个token,
  • 解码,即LLM递归地一一生成输出的token
  • 在本文的其余部分,我将仅关注 OpenAI API 中提示缓存的使用。

    OpenAI API 怎么样?

    提示缓存实践

    🤔

    那么,可能会出现什么问题呢?