AI基准测试平台正在帮助顶级公司钻探他们的模型性能,研究主张

lmarena是大型语言模型的流行基准,被指控对大型科技公司制造的AIS提供优惠待遇,并有可能使他们能够游戏结果。

来源:LiveScience

人工智能(AI)聊天机器人的首选基准正在面临研究人员的审查,他们声称其测试有利于大型科技公司的专有AI模型。

人工智能

lm竞技场有效地将两种身份不明的大语言模型(LLM)放在一场战斗中,以查看哪些可以最好地解决及时及时,而基准的用户投票赞成他们最喜欢的输出。然后将结果馈送到一个排行榜中,该排行榜跟踪模型表现最好以及如何改进的排名。

但是,研究人员声称基准是偏斜的,授予了LLMS主要的“未公开的私人测试实践”,这使他们比开源的LLM具有优势。研究人员于4月29日在预印度数据库ARXIV上发表了他们的发现,因此该研究尚未经过同行审查。

arxiv

“我们表明,少数提供商和聊天机器人竞技场(后来的LM竞技场)对同一小组的优先政策之间的协调危害了科学完整性和可靠的竞技场排名,”研究人员在研究中写道。 “作为一个社区,我们必须更好地要求。”

运气?局限性?操纵?

从加利福尼亚大学的研究人员创建的研究项目聊天机器人竞技场开始,伯克利大学的天空计算实验室,LM Arena迅速成为了顶级AI公司和开源弱者的热门网站,以测试其模型。该网站偏爱从用户响应中得出的“基于Vibes”的分析,该网站现在每月获得超过100万的访问者。

天空计算实验室

为了评估该地点的公正性,研究人员在五个月的时间内测量了超过280万场战斗。他们的分析表明,少数优先的提供商(包括Meta,OpenAI,Google和Amazon在内的公司的旗舰模型)“被授予了对数据和测试的不成比例访问”,因为它们的模型以更高的战斗出现,并具有很大的优势。