有效地使用Amazon基岩上的提示缓存

提示缓存,现在通常在亚马逊基岩上提供,拟人化的Claude 3.5 Haiku和Claude 3.7十四行诗,以及Nova Micro,Nova Lite和Nova Pro模型,可将响应延迟降低高达85%,并通过在多个API调用中降低90%的响应延迟,并降低90%的费用高达90%。这篇文章详细概述了亚马逊基岩上的及时缓存功能,并提供了有关如何有效使用此功能以提高延迟和成本节省的指导。

来源:亚马逊云科技 _机器学习
Prompt caching, now generally available on Amazon Bedrock with Anthropic’s Claude 3.5 Haiku and Claude 3.7 Sonnet, along with Nova Micro, Nova Lite, and Nova Pro models, lowers response latency by up to 85% and reduces costs up to 90% by caching frequently used prompts across multiple API calls.With prompt caching, you can mark the specific contiguous portions of your prompts to be缓存(称为及时前缀)。当用指定的提示前缀提出请求时,模型会处理输入并缓存与前缀相关的内部状态。在随后的匹配提示前缀的请求下,该模型从缓存中读取并跳过处理输入令牌所需的计算步骤。这减少了首先令牌(TTFT)的时间,并更有效地利用硬件,以便我们可以与您分享成本节省。这篇文章提供了详细的概述,详细概述了Amazon Bedrock上的迅速缓存功能,并提供了如何有效地使用此功能的指导,以实现此功能以提高延迟和稳定的效果。和输出令牌生成。 Amazon Bedrock上的提示缓存功能优化了输入令牌处理阶段。您可以通过使用缓存检查点标记提示点的相关部分开始。然后在检查站之前的提示点的整个部分,然后成为缓存的提示前缀。当您以相同的提示前缀(以缓存检查点标记)发送更多请求时,LLM将检查提示前缀是否已存储在缓存中。如果找到匹配的前缀,LLM可以从缓存中读取,从而允许输入处理从最后一个缓存的前缀恢复。这节省了否则会花费的时间和成本来重新计算提示前缀。您应该查看每个缓存的最小令牌数量的支持模型和详细信息