详细内容或原文请订阅后点击阅览
研究:对最新法学硕士进行排名的平台可能不可靠
仅删除一小部分为在线排名平台提供信息的众包数据就可以显着改变结果。
来源:MIT新闻 - 人工智能想要使用大型语言模型 (LLM) 来汇总销售报告或对客户查询进行分类的公司可以在数百个具有数十种模型变体的独特 LLM 之间进行选择,每个模型的性能略有不同。
为了缩小选择范围,公司通常依赖 LLM 排名平台,该平台收集用户对模型交互的反馈,根据最新的 LLM 在某些任务上的表现对它们进行排名。
但麻省理工学院的研究人员发现,少数用户交互可能会扭曲结果,导致有人错误地认为某个 LLM 是特定用例的理想选择。他们的研究表明,删除一小部分众包数据可以改变排名靠前的模型。
他们开发了一种快速方法来测试排名平台并确定它们是否容易受到此问题的影响。评估技术识别出对结果偏差最有责任的个人投票,以便用户可以检查这些有影响力的投票。
研究人员表示,这项工作强调需要更严格的策略来评估模型排名。虽然他们在这项研究中没有关注缓解措施,但他们提供了可能提高这些平台稳健性的建议,例如收集更详细的反馈来创建排名。
该研究还向那些在做出有关法学硕士的决策时可能依赖排名的用户发出警告,这可能会对企业或组织产生深远且代价高昂的影响。
该论文的主要作者、EECS 研究生 Jenny Huang 和 Yunyi Shen 以及 IBM Research 的高级研究科学家 Dennis Wei 也参与了该论文的撰写。该研究将在国际学习表征会议上发表。
删除数据
虽然 LLM 排名平台有多种类型,但最流行的变体要求用户向两个模型提交查询,然后选择哪个 LLM 提供更好的响应。
研究人员希望了解相同的分析是否可以应用于 LLM 排名平台。
