将SGLANG,VLLM和TENSORRT-LLM与GPT-OSS-1220B

比较SGLANG,VLLM和TENSORRT-LLM性能基准,可在NVIDIA H100 GPU上提供GPT-OSS-1220B。

来源:Clarifai博客 | 实际应用中的人工智能

简介

LLM推理框架的生态系统一直在迅速增长。随着模型变得更大,越来越有能力,为它们提供动力的框架被迫保持步伐,从而优化从延迟到吞吐量到记忆效率的所有内容。对于开发人员,研究人员和企业,框架的选择都会极大地影响性能和成本。

在此博客中,我们通过比较sglang,vllm和tensorrt-llm将这些注意事项汇总在一起。我们评估在2倍NVIDIA H100 GPU上提供GPT-OSS-1220b时的表现。结果突出了每个框架的独特优势,并提供了根据您的工作量和硬件进行选择的实用指导。

sglang vllm tensorrt-llm gpt-oss-1220b 2x nvidia h100 gpus

框架的概述

sglang:sglang是围绕结构化生成的想法而设计的。它带来了独特的抽象,例如radixattention和专门的国家管理,使其能够为交互式应用提供较低的延迟。当工作负载需要精确控制输出时,例如生成结构化数据格式或使用代理工作流程时,这使得Sglang特别有吸引力。

sglang:

vllm:VLLM已将自己确立为领先的开源推理框架之一,用于大规模提供大型语言模型。它的关键优势在于吞吐量,由持续批处理和通过pagedeation的有效内存管理提供动力。它还为诸如INT8,INT4,GPTQ,AWQ和FP8之类的量化技术提供了广泛的支持,这是对于那些需要在许多并发请求中每秒最大化令牌的人来说,它是一种多功能的选择。

vllm: tensorrt-llm: frameworkdeSign focuskeypemphensssglangssglangstructrystructions,radixattentionlow延迟,有效的代币generationVllMContiled批处理,pagedattentionHigh吞吐量,支持量化量化TensizationTensortiationTensort-llmtenSorrt Outterizationsgpu-efimptizationgpu-pul级的效率,在H100/B200 effermentizationgpu-eftency in FrameworkDeSign focus Keype 框架 设计焦点 1
FrameworkDeSign focus Keype 框架 设计焦点 1