大型语言模型(LLMS)已显示出较小模型中不存在的任务解决能力的提高。利用LLMS的自动化评估(LLM4EVAL)的责任和责任最近引起了人们对穆尔特研究社区的极大关注。例如,已经在自动判断,自然语言生成和检索增强生成系统的背景下研究了LLM4Eval模型。我们认为,信息检索社区可以通过设计,实施,分析和评估LLM的各个方面,并适用于LLM4EVAL任务,从而为这一不断发展的研究领域做出重大贡献。LLM4Eval研讨会的主要目标是将来自行业和学术界的研究人员汇集在一起,讨论LLM的各个方面,以评估信息检索,包括自动判断,检索授权的生成管道评估,对人类评估,鲁棒性和LLMS的评估以及对其对现实的影响,以改变人类评估,鲁棒性和LLM的信任性。我们还计划在研讨会之前进行自动判断挑战,在此期间,将要求参与者为给定数据集生成标签,同时最大程度地与人类判断力最大化。研讨会的格式是互动的,包括圆桌会议和主题演讲,并且倾向于避免小型会议的单方面对话。
在信息检索(ir)中,除其他应用外,LLMs被积极探索,以进行定时查询文件相关性,包括排名和标签生成[Rahmani等。,2024a; Craswell等。,2024]。后者可用于培训和评估其他功能不力但更有效的排名者。llms用于行业中的相关性标签[Thomas等。,2023]。评估方法将更广泛的LLM和提示应用于标签问题,可能会解决更广泛的质量问题。是在这些观察结果的推动下,我们认为在LLMS背景下的评估策略研讨会会质疑IR和NLP是否真正面临评估策略的范式转变。因此,我们组织了这个研讨会,以通过信息检索镜头对基于LLM的评估提供新的视角。研讨会还提供了一个机会,以反思学术界和行业中基于LLM的评估的好处和挑战。最后,我们鼓励有关进一步评估主题和模型的提交和讨论,而现有文献很少,例如推荐系统,学习排名和扩散模型。本文是我们自己的llm4eval的事件报告[Rahmani等。,2024b]事件,这是与Sigir 2024结合举行的信息检索评估大语模型的第一个用于评估(LLM4EVAL 2024)的研讨会。研讨会举行了一个海报会议,并带有公认的论文和小组讨论。我们报告了如何组织研讨会(第2节),提供有关研讨会(第3节)发生的情况的描述性说明,并报告我们从LLMJudge挑战中学到的东西(第4节)。
