详细内容或原文请订阅后点击阅览
CLALIFAI 11.7:在H100和B200S
在NVIDIA B200和H100 GPU,新型号,Ollama支持等基准测试GPT-OSS-1220B模型。
来源:Clarifai博客 | 实际应用中的人工智能本博客文章重点介绍了新功能和改进。有关综合列表,包括错误修复程序,请参阅发行说明。
本博客文章重点介绍了新功能和改进。有关综合列表,包括错误修复程序,请参阅 发行说明。基准在H100和B200的GPT-oss
OpenAI已发布GPT-OSS-1220B和GPT-OSS-20B,这是Apache 2.0许可下的新一代开放重量推理模型。这些模型旨在遵循强大的教学,强大的工具使用和高级推理,是为下一代代理工作流设计的。
与专家(MOE)设计的混合物,扩展上下文长度为131K令牌以及允许120B模型在单个80 GB GPU上运行的量化,GPT-Oss将大量规模与实际部署结合在一起。开发人员可以将推理级别从低到高调节,以优化速度,成本或准确性,并使用内置的浏览,代码执行以及用于复杂工作流程的自定义工具。
使用VLLM,SGLANG和TENSORRT-LLM,我们的研究团队基准了NVIDIA B200和H100 GPU的GPT-OSS-1220B。测试涵盖了单一要求的方案和高额货币工作负载,并带有50-100个请求。关键发现包括:
- 单个请求速度:带张力的B200提供0.023s的到期时间(TTFT),在几种情况下超过双H100设置优于双H100设置。高温:B200保持7,236代币/SEC的最大负载较低,较低的PORID效率较低或较低的b200 b200可以替换。复杂性。绩效增长:与单个H100相比,一些工作负载的推断速度最高15倍。