开销关键词检索结果

镜像推测解码:打破 LLM 推理中的串行障碍

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

推测性解码通过使用草稿模型进行预测来加速 LLM 推理,但收益受到自回归草稿生成成本的限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度与准确性的权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受度,要么引入了限制扩展的开销。我们提出了镜像推测解码(Mirror-SD),这是一种打破延迟与接受权衡的推理算法。 Mirror-SD 从...启动分支完整部署

Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由

Managed Tiered KV Cache and Intelligent Routing for Amazon SageMaker HyperPod

在这篇文章中,我们介绍了 Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由,这些新功能可以将长上下文提示和多轮对话的首次令牌时间缩短高达 40%,并将计算成本降低高达 25%。这些功能可自动管理分布式 KV 缓存基础设施和智能请求路由,从而更轻松地部署具有企业级性能的生产规模 LLM 推理工作负载,同时显着降低运营开销。