CLALIFAI 11.7:在H100和B200S

在NVIDIA B200和H100 GPU,新型号,Ollama支持等基准测试GPT-OSS-1220B模型。

来源:Clarifai博客 | 实际应用中的人工智能

本博客文章重点介绍了新功能和改进。有关综合列表,包括错误修复程序,请参阅发行说明。

本博客文章重点介绍了新功能和改进。有关综合列表,包括错误修复程序,请参阅 发行说明。

基准在H100和B200的GPT-oss

OpenAI已发布GPT-OSS-1220B和GPT-OSS-20B,这是Apache 2.0许可下的新一代开放重量推理模型。这些模型旨在遵循强大的教学,强大的工具使用和高级推理,是为下一代代理工作流设计的。

与专家(MOE)设计的混合物,扩展上下文长度为131K令牌以及允许120B模型在单个80 GB GPU上运行的量化,GPT-Oss将大量规模与实际部署结合在一起。开发人员可以将推理级别从低到高调节,以优化速度,成本或准确性,并使用内置的浏览,代码执行以及用于复杂工作流程的自定义工具。

使用VLLM,SGLANG和TENSORRT-LLM,我们的研究团队基准了NVIDIA B200和H100 GPU的GPT-OSS-1220B。测试涵盖了单一要求的方案和高额货币工作负载,并带有50-100个请求。关键发现包括:

    单个请求速度:带张力的B200提供0.023s的到期时间(TTFT),在几种情况下超过双H100设置优于双H100设置。高温:B200保持7,236代币/SEC的最大负载较低,较低的PORID效率较低或较低的b200 b200可以替换。复杂性。绩效增长:与单个H100相比,一些工作负载的推断速度最高15倍。
  • 单个请求速度:带有Tensorrt-llm的B200提供0.023s的第一时间(TTFT),在某些情况下表现优于双H100设置。
  • 高并发性:B200以较低的延迟延迟为7,236代币/秒。
  • 效率:一个B200可以替换两个H100,以相等或更好的性能,使用较低的功率使用和较小的复杂性。
  • 在这里 gpt-5