详细内容或原文请订阅后点击阅览
我们衡量人工智能进步的方式很糟糕
每次发布新的 AI 模型时,它通常都会被吹捧为在一系列基准测试中表现出色。例如,OpenAI 的 GPT-4o 于 5 月推出,其结果汇编显示其性能在几项测试中超过了其他所有 AI 公司的最新模型。问题是这些基准测试很差……
来源:MIT Technology Review _人工智能这项研究的目标之一是定义一个好的基准的标准列表。“讨论基准的质量、我们想从它们那里得到什么、我们需要从它们那里得到什么,这绝对是一个重要的问题,”Ivanova 说。“问题是没有一个好的标准来定义基准。这篇论文试图提供一套评估标准。这非常有用。”
这篇论文伴随着一个网站 BetterBench 的发布,该网站对最受欢迎的人工智能基准进行了排名。评级因素包括是否就设计咨询过专家、测试能力是否定义明确以及其他基本因素——例如,基准是否有反馈渠道,或者是否经过了同行评审?
BetterBenchMMLU 基准的评级最低。“我不同意这些排名。 “事实上,我是一些排名靠前的论文的作者,我认为排名较低的基准比它们更好,”人工智能安全中心 CAIS 主任、MMLU 基准的创建者之一 Dan Hendrycks 表示。话虽如此,Hendrycks 仍然认为推动该领域前进的最好方法是建立更好的基准。
一些人认为这些标准可能忽略了更大的图景。“这篇论文增加了一些有价值的东西。实施标准和文档标准——所有这些都很重要。它使基准变得更好,”专门从事人工智能评估的研究机构 Apollo Research 的首席执行官 Marius Hobbhahn 说。“但对我来说,最重要的问题是,你测量的是否正确?你可以检查所有这些框,但你仍然可能有一个糟糕的基准,因为它没有测量正确的东西。”
本质上,即使基准测试设计得非常完美,如果有人真的担心人工智能的黑客能力,那么测试模型对莎士比亚十四行诗提供令人信服的分析的能力的基准测试可能毫无用处。
基准测试 BetterBench