CLALIFAI 11.7：在H100和B200S XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

CLALIFAI 11.7：在H100和B200S

2025年8月14日 16:56 33 Comments

在NVIDIA B200和H100 GPU，新型号，Ollama支持等基准测试GPT-OSS-1220B模型。

来源:Clarifai博客 | 实际应用中的人工智能

本博客文章重点介绍了新功能和改进。有关综合列表，包括错误修复程序，请参阅发行说明。

基准在H100和B200的GPT-oss

OpenAI已发布GPT-OSS-1220B和GPT-OSS-20B，这是Apache 2.0许可下的新一代开放重量推理模型。这些模型旨在遵循强大的教学，强大的工具使用和高级推理，是为下一代代理工作流设计的。

与专家（MOE）设计的混合物，扩展上下文长度为131K令牌以及允许120B模型在单个80 GB GPU上运行的量化，GPT-Oss将大量规模与实际部署结合在一起。开发人员可以将推理级别从低到高调节，以优化速度，成本或准确性，并使用内置的浏览，代码执行以及用于复杂工作流程的自定义工具。

使用VLLM，SGLANG和TENSORRT-LLM，我们的研究团队基准了NVIDIA B200和H100 GPU的GPT-OSS-1220B。测试涵盖了单一要求的方案和高额货币工作负载，并带有50-100个请求。关键发现包括：

单个请求速度：带张力的B200提供0.023s的到期时间（TTFT），在几种情况下超过双H100设置优于双H100设置。高温：B200保持7,236代币/SEC的最大负载较低，较低的PORID效率较低或较低的b200 b200可以替换。复杂性。绩效增长：与单个H100相比，一些工作负载的推断速度最高15倍。

单个请求速度：带有Tensorrt-llm的B200提供0.023s的第一时间（TTFT），在某些情况下表现优于双H100设置。

高并发性：B200以较低的延迟延迟为7,236代币/秒。

效率：一个B200可以替换两个H100，以相等或更好的性能，使用较低的功率使用和较小的复杂性。

在这里 gpt-5

GPT 包括新一代速度混合物并发性开发人员设计的使用 H100 B200 1220B 下一代张力的负载的工作 OSS 内置的请求设置较小的工具单个量规强大的准确性优于模型运行的代币较低的复杂性要求的工作负载请参阅

CLALIFAI 11.7：在H100和B200S

基准在H100和B200的GPT-oss

其他外部链接

Tags

XiaoMi-AI