详细内容或原文请订阅后点击阅览
DataRobot 中的行业标准 LLM 基准
每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作,只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。三个数字很重要:GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及每百万代币的成本……DataRobot 中的后行业标准 LLM 基准首先出现在 DataRobot 上。
来源:DataRobot博客每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作,只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。
三个数字很重要:GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及持续负载下每百万个令牌的成本。这些指标来自于模型与硬件、运行时、分词器和流量混合的交互方式。
DataRobot 11.8 通过 LLM Profiling Jobs 改变了这一现状:NVIDIA AIPerf(行业标准的生成式 AI 基准测试工具)的本机集成。一项经过身份验证的 POST 对服务于 OpenAI 兼容 Web 服务器的任何 DataRobot LLM 部署进行基准测试,扫描您定义的并发范围和用例,并将经验输入返回到配额预订(在 DataRobot 11.9 中提供)。
为什么 LLM 能力难以预测
LLM 推理不会线性扩展。每个请求的计算和内存需求动态地取决于提示长度、响应长度、采样参数和 KV 缓存利用率。每秒服务 50 个短聊天回合的部署可能会在同一硬件上以每秒 5 个长上下文 RAG 请求的速度停止。四种不同的行为使静态或推测的容量估计变得不可靠:
LLM 分析工作使这些曲线变得可见。
