DataRobot 中的行业标准 LLM 基准 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

DataRobot 中的行业标准 LLM 基准

2026年5月27日 15:40 33 Comments

每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作，只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。三个数字很重要：GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及每百万代币的成本……DataRobot 中的后行业标准 LLM 基准首先出现在 DataRobot 上。

来源:DataRobot博客

每个 LLM 部署都有上限、延迟曲线和单位成本。大多数团队盲目操作，只有在过度配置耗尽 GPU 预算或峰值流量导致灾难性故障时才发现部署限制。

三个数字很重要：GPU 饱和之前的最大持续并发性、该并发性下的端到端延迟以及持续负载下每百万个令牌的成本。这些指标来自于模型与硬件、运行时、分词器和流量混合的交互方式。

DataRobot 11.8 通过 LLM Profiling Jobs 改变了这一现状：NVIDIA AIPerf（行业标准的生成式 AI 基准测试工具）的本机集成。一项经过身份验证的 POST 对服务于 OpenAI 兼容 Web 服务器的任何 DataRobot LLM 部署进行基准测试，扫描您定义的并发范围和用例，并将经验输入返回到配额预订（在 DataRobot 11.9 中提供）。

为什么 LLM 能力难以预测

LLM 推理不会线性扩展。每个请求的计算和内存需求动态地取决于提示长度、响应长度、采样参数和 KV 缓存利用率。每秒服务 50 个短聊天回合的部署可能会在同一硬件上以每秒 5 个长上下文 RAG 请求的速度停止。四种不同的行为使静态或推测的容量估计变得不可靠：

延迟在并发中是非线性的。第一个令牌的时间和令牌间延迟在很宽的并发范围内保持大致平坦，然后一旦 GPU 内存带宽或计算饱和，就会急剧上升。当预填充计算饱和时，TTFT 上升；当解码存储器带宽饱和时，令牌间延迟会增加。哪一个先发挥作用取决于工作负载组合和部署的 GPU 配置（单卡或集群）。饱和拐点是重要的工作点，不能从单个低负载测量中推断出来。

LLM 分析工作使这些曲线变得可见。

LLM 基准如何提供帮助

LLM 基准指标的含义

提交作业

读取曲线

获取访问权限

指标分词器急剧上升服务器饱和线性的非线性混合的 LLM 不同的并发性利用率曲线单位成本输入长度验证的部署负载非线性的工作点 GPU 测试工具延迟 DataRobot 重要的为什么工作负载令牌并发端到端取决于行业标准基准交互方式标准的存储器动态经验输入变得