AI 基准解释:GPQA、SWE-bench、Chatbot Arena 及其实际测量内容

了解 MMLU、GPQA Diamond、SWE-bench、HealthBench 和 Chatbot Arena 实际测量的内容,以及实验室如何计算基准分数。

来源:Nanonets

Meta 刚刚发布了 Muse Spark。该公告称,它在健康任务上击败了 GPT-5.4,在人工智能分析指数上排名全球前五,在 GPQA 钻石测试中得分为 89.5%。

十一个月前,Meta 对 Llama 4 说了几乎相同的话,但在人们真正使用它之前,数量就崩溃了。

那么这些基准是什么?分数是如何计算的?为什么在所有排行榜上名列前茅的模型有时在使用时会感觉平庸?

本指南解释了最大的 AI 基准测试实际测量的内容,包括 MMLU、GPQA Diamond、HumanEval、SWE-bench、HealthBench、Humanity’s Last Exam 和 Chatbot Arena。它还解释了基准分数的计算方式、为什么某些测试比其他测试更重要,以及人工智能实验室如何在不提高实际性能的情况下夸大基准测试结果。

什么是人工智能基准?

基准测试只是标准化测试。以相同的方式向每个人工智能模型提供一组固定的问题或任务,得分也相同。这个想法是,如果每个人都参加相同的测试,你就可以公平地比较结果。但人工智能社区已经开始采取一种称为“benchmaxxxing”的做法:通过评估选择、精心挑选的设置和训练策略,从基准中挤出所有可能的点,从而提高分数,而不必改进模型。

我们将在完成每个基准测试时详细了解其工作原理。

MMLU 和 MMLU-Pro:知识测试

内容:涵盖 57 个科目的 15,000 多道多项选择题。法律、医学、化学、历史、经济学、计算机科学。每个问题有四个答案选择。

实际问题是什么样的:

一名 60 岁男性,出现双腿进行性无力、反射减退和肌束震颤。 MRI 显示前角细胞变性。以下哪一项是最可能的诊断?(A) 多发性硬化症 (B) 肌萎缩侧索硬化症 (C) 吉兰-巴利综合征 (D) 重症肌无力

  • 双子座3.1 Pro:94.3%