研究方向:本报告概述了具有高智力价值和更广泛影响的 IR-GenAI 系统的八个研究方向:(1)IR-GenAI 中的评估挑战和需求;(2)从隐性和显性的人为反馈中学习,以解决可能需要推理的复杂问题;(3)理解和建模不断发展的生成式 AI 信息访问系统的用户;(4)解决或缓解 IR-GenAI 新技术带来的社会技术问题的挑战和潜在解决方案;(5)开发个性化 IR-GenAI 系统的方法;(6)在开发 IR-GenAI 方法时扩展计算、数据和人力时的效率考虑;(7)信息检索在增强 AI 代理中的作用;(8)专门用于信息访问和发现的基础模型。
目的:目的是确保学生可以逐步理解给定文档集的倒置索引。影响:学生意识到,一旦理解了算法步骤以创建倒置索引,则可以重复任何一组文档。
排除是人类用来表达自己不想要的重要性语言技能。几乎没有关于排他性检索的研究,用户表达了他们不想成为查询结果的一部分。我们首次研究了文件检索中排除检索的情况。我们提出了Dextuir,这是一套用于排除检索的资源,包括评估基准和培训集,用于帮助检索模型理解排除查询。评估基准包括3,452个高质量的排除查询,每个查询都已手动注释。该训练集包含70,293个排除查询,每个查询都与POSSIVE文档和负面文档配对。我们进行了详细的实验和分析,获得了三个主要观察结果:(i)现有的检索模型具有不同的结构,以有效地理解排他性查询; (ii)尽管整合我们的培训数据可以改善在排除检索方面的检索模型的表现,但与人类绩效相比,仍然存在差距; (iii)一般检索模型在处理排除查询方面具有自然优势。
意大利信息检索研讨会 (IIR) 于 2010 年创办,现已进入第 14 届,旨在为介绍和讨论信息检索理论和实证研究提供一个平台。自首次在帕多瓦举办以来,IIR 已成为研究人员(尤其是早期学者)以及对信息检索感兴趣的行业专业人士的重要论坛,他们可以在协作和非正式的环境中交流、分享想法并讨论他们的工作。多年来,研讨会除了讨论搜索和排名之外,还开放了各种研究领域的讨论,包括内容表示和分析、个性化搜索和推荐、对话系统和特定领域的应用、通过研究人为因素和界面实现可用性,以及开发信息检索系统和 RS 的评估方法。自首次举办以来,IIR 每年都由该领域的领先研究小组组织举办。该研讨会曾在国内外举办过:帕多瓦(2010 年和 2019 年)、米兰(2011 年和 2022 年)、巴里(2012 年和 2021 年)、比萨(2013 年和 2023 年)、罗马(2014 年和 2018 年)、卡利亚里(2015 年)、威尼斯(2016 年)和卢加诺(2017 年)。本活动报告的组织方式如下。我们首先概述 IIR 2024 的关键方面(第 2 部分),包括目标、主题、组织和收到的贡献概述。接下来,我们简要描述研讨会上提出的每一项贡献(第 3 部分)。最后,我们重点介绍新兴的研究趋势和其他相关见解(第 4 部分)。
在信息检索(ir)中,除其他应用外,LLMs被积极探索,以进行定时查询文件相关性,包括排名和标签生成[Rahmani等。,2024a; Craswell等。,2024]。后者可用于培训和评估其他功能不力但更有效的排名者。llms用于行业中的相关性标签[Thomas等。,2023]。评估方法将更广泛的LLM和提示应用于标签问题,可能会解决更广泛的质量问题。是在这些观察结果的推动下,我们认为在LLMS背景下的评估策略研讨会会质疑IR和NLP是否真正面临评估策略的范式转变。因此,我们组织了这个研讨会,以通过信息检索镜头对基于LLM的评估提供新的视角。研讨会还提供了一个机会,以反思学术界和行业中基于LLM的评估的好处和挑战。最后,我们鼓励有关进一步评估主题和模型的提交和讨论,而现有文献很少,例如推荐系统,学习排名和扩散模型。本文是我们自己的llm4eval的事件报告[Rahmani等。,2024b]事件,这是与Sigir 2024结合举行的信息检索评估大语模型的第一个用于评估(LLM4EVAL 2024)的研讨会。研讨会举行了一个海报会议,并带有公认的论文和小组讨论。我们报告了如何组织研讨会(第2节),提供有关研讨会(第3节)发生的情况的描述性说明,并报告我们从LLMJudge挑战中学到的东西(第4节)。
最先进的神经检索者主要关注英语等高源语言,这阻碍了他们在涉及其他语言的检索中采用。当前通过杠杆化的多语言审计语言模式,可以证明缺乏非英语语言的高质量标记数据。但是,这些模型需要多种语言的大量特定于任务特定的微调,通常在训练阶段的语料库中以最少的反映语言表现较差,以在培训阶段之后结合新语言。在这项工作中,我们提出了一个新颖的模块化检索模型,该模型从单个高资源语言的丰富数据中学习,并有效地转移到各种语言,从而消除了对语言特定标记的数据的需求。我们的模型Colbert-XM展示了与现有的最新的多语言检索器相对的性能,这些猎犬在更广泛的数据集中以各种语言进行了培训。进一步的分析表明,我们的模块化方法具有高度的数据效率,有效地适应了分布数据,并大大减少了能耗和碳排放。通过证明其在零拍摄的Sce-Narios中的熟练程度,Colbert-XM标志着向更可持续和包容的检索系统的转变,从而使有效的信息可以使用多种语言获得。我们将公开发布社区的代码和模型。
摘要 人工智能 (AI) 与信息检索 (IR) 系统的集成通过增强信息可访问性、个性化和用户体验,彻底改变了学术图书馆的功能。传统的 IR 系统经常面临数据过载、相关性排名和用户可访问性问题,限制了它们满足学术用户动态需求的有效性。本评论探讨了人工智能技术(例如机器学习、自然语言处理和深度学习)在克服这些挑战方面的变革性作用,从而使 IR 系统更加高效和以用户为中心。通过智能推荐系统、高级搜索算法和人工智能虚拟助手,图书馆现在可以提供量身定制的信息体验,从而提高搜索准确性并加快资源访问速度。此外,本文还讨论了道德考虑因素,包括数据隐私、人工智能偏见和透明度,强调在学术环境中需要负责任的人工智能应用。通过讨论当前的应用和未来趋势,本评论旨在强调人工智能进一步发展学术图书馆 IR 系统的潜力,并提出继续研究的方向。总体而言,人工智能是重塑学术图书馆的关键推动因素,促进用户与大量信息资源的无缝和自适应交互。关键词:人工智能;信息检索系统;学术图书馆;用户体验;机器学习;数据隐私。
1 ST信息文档获取1995 2 nd +导航 +文档关系 +达到1998 3 rd +交易 +搜索垂直行业 +执行2002 4 th +合成 +生成模型 +浓缩模型 +凝结2023
摘要 量子计算 ( QC ) 是计算科学中一个新兴领域,由于其具有开创性应用的潜力,吸引了大量研究兴趣。事实上,人们相信 QC 可以通过显著减少解决问题所需的时间来彻底改变我们解决非常复杂问题的方式。尽管 QC 仍处于发展的早期阶段,但已经可以使用量子计算机解决一些问题,从而开始看到它的潜力。因此,QuantumCLEF 实验室的目标是提高人们对 QC 的认识,并开发和评估新的 QC 算法,以解决在实现信息检索 ( IR ) 和推荐系统 ( RS ) 时通常面临的挑战。此外,这个实验室为人们提供了一个接触 QC 技术的好机会,由于这些技术还处于早期发展阶段,因此通常不易获得。在本文中,我们概述了 QuantumCLEF 的第一版,该实验室专注于应用量子退火 ( QA ),一种特定的 QC 范例,来解决两个任务:IR 和 RS 系统的特征选择,以及 IR 系统的聚类。共有 26 个团队注册了该实验室,最终有 7 个团队按照实验室指南成功提交了他们的运行。由于主题新颖,我们为参与者提供了许多示例和全面的材料,以帮助他们了解 QA 的工作原理以及如何编写量子退火程序。