详细内容或原文请订阅后点击阅览
新的GPT-soss模型有什么好处吗?我们对它们进行了测试。
我们使用开源优化器测试了OpenAI的GPT-oss 20b和120B。哪个可以提供速度,成本和准确性的最佳组合?结果可能会让您感到惊讶。帖子是新的GPT-sops模型有什么好处吗?我们对它们进行了测试。首先出现在DataRobot上。
来源:DataRobot博客OpenAI早在2019年GPT-2就没有发布开放式语言模型。六年后,他们以两个:GPT-OSS-1220B和较小的GPT-OSS-20B感到惊讶。
gpt-oss-1220b gpt-oss-20b自然,我们想知道 - 他们实际上如何表现?
为了找出答案,我们通过开源工作流优化框架(Syftr)运行了这两个模型。它评估了跨不同配置的模型 - 快速,廉价,高准确性和低精度 - 包括对Openai的新“思维工作”设置的支持。
syftr “思考努力”从理论上讲,更多的思维应该意味着更好的答案。实际上?并非总是如此。
我们还使用SYFTR来探讨“ LLM-AS-A-A-Gudge实际上在工作?”之类的问题。和“哪些工作流程在许多数据集中表现良好?”。
llm-as-a-a-gudge实际上在工作吗? 哪些工作流程在许多数据集中表现良好?”我们与GPT-oss的第一个结果可能会让您感到惊讶:表现最好的人不是最大的模特或最深的思想家。
表现最好的人不是最大的模型或最深层的思想家。相反,具有低思维工作的20B模型始终降落在帕累托边境上,甚至可以在FinanceBench,HotPotQa和Multihoprag等基准上与120B媒介配置媲美。同时,高思维努力很少有重要的事情。
低思维努力 Pareto Frontier,我们如何设置实验
我们不只是对自己的诉讼。取而代之的是,我们想看看它如何与其他强大的开放权重模型相抵触。因此,我们将GPT-OSS-20B和GPT-OSS-1220B与:
- QWEN3-235B-A22BGLM-4.4.5-AIRNEMOTRON-SUPER-49BQWEN3-30B-A3BGEMMA3BGEMMA3-27B-ITPHI-4-MULTPHI-4-MULTIMODAL-INSTRUCT-instruct
要测试OpenAi的新“思维工作”功能,我们以三种模式运行了每个GPT-soss模型:低,中和高思维工作。这给了我们总共六个配置:
- gpt-oss-1220b-low / -medium / -highgpt-oss-20b-low / -medium / -high < / div < / div>