Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由

在这篇文章中,我们介绍了 Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由,这些新功能可以将长上下文提示和多轮对话的首次令牌时间缩短高达 40%,并将计算成本降低高达 25%。这些功能可自动管理分布式 KV 缓存基础设施和智能请求路由,从而更轻松地部署具有企业级性能的生产规模 LLM 推理工作负载,同时显着降低运营开销。

来源:亚马逊云科技 _机器学习
现代人工智能应用程序需要大型语言模型快速、经济高效的响应,尤其是在处理长文档或扩展对话时。然而,随着上下文长度的增加,LLM 推理可能会变得极其缓慢和昂贵,延迟呈指数级增长,并且每次交互的成本都会增加。LLM 推理需要在生成每个新令牌时重新计算先前令牌的注意机制。这会产生大量的计算开销和长序列的高延迟。键值 (KV) 缓存通过存储和重用先前计算中的键值向量来解决此瓶颈,从而减少推理延迟和首次令牌时间 (TTFT)。 LLM 中的智能路由是一种将带有共享提示的请求发送到同一推理实例以最大限度地提高 KV 缓存效率的技术。它将新请求路由到已经处理过相同前缀的实例,从而允许它重用缓存的 KV 数据以加速处理并减少延迟。然而,客户告诉我们,在生产规模上设置和配置正确的 KV 缓存和智能路由框架具有挑战性,并且需要较长的实验周期。今天,我们很高兴地宣布,Amazon SageMaker HyperPod 现在通过 HyperPod Inference Operator 支持托管分层 KV 缓存和智能路由功能。当使用我们的内部工具进行长上下文提示和多轮聊天对话时,这些新功能可以将首次标记时间 (TTFT) 缩短高达 40%、提高吞吐量并降低计算成本高达 25%,从而显着提高 LLM 推理工作负载的性能。这些功能可与 HyperPod Inference Operator 结合使用,后者自动管理路由和分布式 KV 缓存基础设施,显着降低运营开销,同时为生产 LLM 部署提供企业级性能。由你