详细内容或原文请订阅后点击阅览
Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由
在这篇文章中,我们介绍了 Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由,这些新功能可以将长上下文提示和多轮对话的首次令牌时间缩短高达 40%,并将计算成本降低高达 25%。这些功能可自动管理分布式 KV 缓存基础设施和智能请求路由,从而更轻松地部署具有企业级性能的生产规模 LLM 推理工作负载,同时显着降低运营开销。
来源:亚马逊云科技 _机器学习