AI基准测试中的政党指责LM竞技场偏爱技术巨头

最近发表的研究排行榜幻觉(https://arxiv.org/pdf/2504.20879),已引起人们对LM Arena偏见的严重问题的关注点,该平台用于比较和排名不同的AI模型。该研究是Cohere Labs,Stanford,MIT和其他几个机构的研究人员之间的合作。结果引发了有关AI开发中透明和正义的问题。 AI基准研究中的帖子偏见指责LM竞技场首次出现在AI新闻中。

来源:AI新闻
聊天机器人竞技场允许一些供应商私下测试几种变体,仅发布最佳结果,这导致排名失真。 专有模型比开放模型获得更多的数据和测试机会,该模型在数据访问中造成了不平等。 访问聊天机器人竞技场数据可提供重大的性能改进,这可能导致对竞技场的特定动态的过度适应。最近发表的一项研究排行榜幻觉(https://arxiv.org/pdf/2504.20879)指导了人们的聚光灯,该聚光灯被用作援助,这是在严重问题的情况下使用的。 AI模型。该研究是Cohere Labs,Stanford,MIT和其他几个机构的研究人员之间的合作。结果引发了有关AI开发中透明和正义的问题。什么是LM竞技场,为什么重要? LM Arena是一个受欢迎的基准测试平台,在该平台中测试了AI模型,并根据其在不同任务上的表现如何获得积分。该平台已成为AI世界的核心部分,研究人员和公司都将其用于展示其最新模型。在LM Arena的最高名单上,很高的位置可以为公司声望和吸引投资。研究人员公平地质疑这项研究,平台可以通过几种方式使大型技术公司受益于较小的参与者或学术团体。研究人员指出,除其他外,一些公司被允许提交更多模型并更频繁地更新其贡献,这使他们有更大的机会优化其结果。此外,一些公司可以访问更多的资源,因此可以培训更大,更先进的模型,这本身就可以在排名中获得优势。强调的另一个问题是LM Arena的评估系统并不总是透明的。有时不清楚如何计算分数,并且系统中的某些更改尚未清楚地传达给所有用户。这使得很难比较不同的勇气