详细内容或原文请订阅后点击阅览
Kubernetes 上并发 LLM 代理的 GPU 时间切片
系统级深入探讨 Kubernetes GPU 时间切片的隐藏微架构成本,以及共置 Agentic AI 工作负载的实际成本。Kubernetes 上并发 LLM 代理的 GPU 时间切片后文章首先出现在《走向数据科学》上。
来源:走向数据科学。生产代理争夺同一个 GPU,在一张共享卡上,对延迟敏感的代理的 p99 延迟悄然恶化了 66%,而每个 Pod 仍然报告健康。这是这场战斗的实际成本,以 p99 来衡量,而不是挥手。
这是“生产级代理推理”系列的第 2 部分。每个部分都从代理 LLM 管道中删除一种冗余工作。第 1 部分消除了冗余预填充。第 2 部分(本部分)解决冗余等待问题 — 多个微代理如何通过时间切片共享一个 GPU。第 3 部分使用自定义 CUDA Top-K 内核在 GPU 上保留 RAG 检索。第 4 部分在切换过程中保持代理状态,以便下一个代理永远不会出现冷启动问题。
要点
Github 仓库:https://github.com/AnubhabBanerjee/Kube-Timeslice-Profiler
同时...
