DataRobot 中的行业标准 LLM 基准

每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作,只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。三个数字很重要:GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及每百万代币的成本……DataRobot 中的后行业标准 LLM 基准首先出现在 DataRobot 上。

来源:DataRobot博客

每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作,只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。

三个数字很重要:GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及持续负载下每百万个令牌的成本。这些指标来自于模型与硬件、运行时、分词器和流量混合的交互方式。

DataRobot 11.8 通过 LLM Profiling Jobs 改变了这一现状:NVIDIA AIPerf(行业标准的生成式 AI 基准测试工具)的本机集成。一项经过身份验证的 POST 对服务于 OpenAI 兼容 Web 服务器的任何 DataRobot LLM 部署进行基准测试,扫描您定义的并发范围和用例,并将经验输入返回到配额预订(在 DataRobot 11.9 中提供)。

为什么 LLM 能力难以预测

LLM 推理不会线性扩展。每个请求的计算和内存需求动态地取决于提示长度、响应长度、采样参数和 KV 缓存利用率。每秒服务 50 个短聊天回合的部署可能会在同一硬件上以每秒 5 个长上下文 RAG 请求的速度停止。四种不同的行为使静态或推测的容量估计变得不可靠:

  • 延迟在并发中是非线性的。第一个令牌的时间和令牌间延迟在很宽的并发范围内保持大致平坦,然后一旦 GPU 内存带宽或计算饱和,就会急剧上升。当预填充计算饱和时,TTFT 上升;当解码存储器带宽饱和时,令牌间延迟会增加。哪一个先发挥作用取决于工作负载组合和部署的 GPU 配置(单卡或集群)。饱和拐点是重要的工作点,不能从单个低负载测量中推断出来。
  • LLM 分析工作使这些曲线变得可见。

    LLM 基准如何提供帮助

    LLM 基准指标的含义

    提交作业

    读取曲线

    获取访问权限