详细内容或原文请订阅后点击阅览
如何构建更好的AI基准
作为硅谷最喜欢的基准之一并不容易。 SWE-Bench(发音为“ Swee板凳”)于2024年11月推出,以评估AI模型的编码技能,使用了来自12个不同基于Python的项目的公共GitHub存储库中的2,000多个现实世界中的编程问题。从那以后的几个月中,它很快成为最重要的……
来源:MIT Technology Review _人工智能传统测试的极限
如果AI公司响应基准越来越缓慢,这部分是因为测试得分方法在这么长时间内如此有效。
当代AI最大的早期成功之一是Imagenet挑战,这是当代基准的前提。该数据库于2010年发行,作为对研究人员的公开挑战,该数据库拥有超过300万张图像,以使AI系统分为1,000个不同类别。
至关重要的是,该测试对方法完全不可知,无论其工作原理如何,任何成功的算法都会迅速获得信誉。当一种名为Alexnet的算法在2012年破裂,当时是一种非常规的GPU培训形式,它成为现代AI的基本结果之一。很少有人会提前猜测Alexnet的卷积神经网将是解锁图像识别的秘诀,但是在得分良好之后,没有人敢于争议。 (Alexnet的开发人员之一Ilya Sutskever将继续前往Openai。)
illya sutskever使这一挑战如此有效的很大一部分是,Imagenet的对象分类挑战与要求计算机识别图像的实际过程之间几乎没有实际区别。即使关于方法存在争议,也没有人怀疑分数最高的模型在部署在实际图像识别系统中时会有优势。
,但是在此以来的12年中,AI研究人员已将相同的方法不合时宜的方法应用于越来越一般的任务。 SWE基础通常被用作更广泛的编码能力的代理,而其他考试风格的基准通常具有推理能力。这个广泛的范围使得很难对特定的基准测量措施进行严格的措施,这反过来又使负责任地使用这些发现。