我们可以解决AI的评估危机吗?

作为技术记者,我经常被问到诸如“ deepseek实际上比chatgpt更好?”之类的问题。还是“人类模型有好处吗?”如果我不想将其变成一个一个小时的研讨会,我通常会给出外交答案:“它们都以不同的方式扎实。”大多数询问的人都无法确切地定义“好”……

来源:MIT Technology Review _人工智能

Xbench背后的团队具有巨大的野心。他们计划将其测试功能扩展到金融,法律和设计等领域,并计划每季度更新测试集,以避免停滞。

这是我经常想的事情,因为模型的铁杆推理能力不一定会转化为有趣,信息丰富且创造性的体验。普通用户的大多数查询可能不会是火箭科学。关于如何有效评估模型的创造力的研究还没有太多研究,但是我很想知道哪种模型是创意写作或艺术项目的最佳模型。

人类偏好测试也已成为基准的替代方法。 LMARENA越来越受欢迎,它使用户可以提交问题并并排比较来自不同模型的回答,然后选择他们最喜欢的哪个。尽管如此,这种方法仍然存在缺陷。用户有时奖励听起来更讨人喜欢或令人愉快的答案,即使是错误的。这可以激励“甜言论”模型,并偏向倾向,以支持pandering。

AI研究人员开始意识到并承认AI测试的现状无法继续。在最近的CVPR会议上,纽约大学教授对历史学家詹姆斯·卡斯(James Carse)的有限和无限游戏进行了批评,以批评AI研究的过度竞争文化。他指出,无限的游戏是开放式的 - 目标是继续比赛。但是在AI中,一个主导者通常会取得很大的结果,引发了追逐同一狭窄话题的后续纸。这种竞争到出版的文化给研究人员带来了巨大的压力,并奖励速度超过深度,短期胜利胜过长期见解。他警告说:“如果学术界选择玩有限的游戏,它将失去一切。”

AI研究人员开始意识到并承认AI测试的现状无法继续。 这个故事最初出现在 ,我们每周在AI上的新闻通讯。要首先在收件箱中获取这样的故事,请在此处注册。