顶级 LLM 推理提供商比较 - GPT-OSS-120B

比较顶级 GPT‑OSS‑120B 推理提供商的吞吐量、延迟和成本。了解 Clarifai、Vertex AI、Azure、AWS 等如何处理推理繁重的工作负载和实际应用程序。

来源:Clarifai博客 | 实际应用中的人工智能

TL;DR

在这篇文章中,我们将探讨领先的推理提供商如何使用人工分析的基准在 GPT-OSS-120B 模型上执行。您将了解评估推理平台时最重要的因素,包括吞吐量、第一个令牌的时间和成本效率。我们比较了 Vertex AI、Azure、AWS、Databricks、Clarifai、Together AI、Fireworks、Nebius、CompactifAI 和 Hyperbolic 的性能和部署效率。

简介

大型语言模型 (LLM),例如 GPT-OSS-120B(一种开放权重 1200 亿参数混合专家模型),专为高级推理和多步骤生成而设计。推理工作负载会快速消耗令牌并对计算提出很高的要求,因此在生产中部署这些模型需要提供低延迟、高吞吐量和更低成本的推理基础设施。

GPT-OSS-120B, GPT-OSS-120B

硬件、软件优化和资源分配策略的差异可能会导致延迟、效率和成本的巨大差异。这些差异直接影响现实世界的应用程序,例如推理代理、文档理解系统或副驾驶,其中即使很小的延迟也会影响整体响应能力和吞吐量。

为了客观地评估这些差异,独立的基准变得至关重要。现在,开放和数据驱动的评估不再依赖内部性能声明,而是提供了一种更透明的方式来评估不同平台在实际工作负载下的性能。

在这篇文章中,我们使用 GPT-OSS-120B 模型作为参考基准来比较领先的基于 GPU 的推理提供商。我们研究每个平台在关键推理指标(例如吞吐量、首次生成令牌的时间和成本效率)上的表现,以及这些权衡如何影响推理繁重的工作负载的性能和可扩展性。

在深入研究结果之前,让我们快速了解一下人工分析及其基准测试框架的工作原理。

人工分析

人工分析基准

这里 在这里。 注释: