在043 A高维空间中启用其语义相似性。044但是,此相似性计算过程045面临几个挑战。首先,查询与文档047之间的复杂SE-046摩西关系映射到标量相似性,该标量相似性无法重新触及足够的信息,并且很难在049架上持平(Brito and Iser,2023)。第二,当与长期文档进行交易时,例如具有256、051 512或更多令牌的文件,确定了与查询最相关的第052节,并且对相似性最大的053贡献最高的053是非常可取的,但挑战是挑战 - 054(Luo等人),2024; Günther等。,055 2024)。此外,许多NLP任务,例如SEN- 056 TENCE选择,搜索结果突出显示,针头057在干草堆中(Liu等人。,2024b; An等。,2024; 058 Wang等。,2024)和细粒度引用(Gao 059等人,2023;张等。,2024),需要对文本的深度和060细粒度的理解。061鉴于需要对细粒度的理解的需求,062只是将整个文档与查询保持一致的双重编码器似乎不足,因为它的召开对比损失主要强调全局065语义(Khattab和Zaharia,2020年)。com-066 pllement re-067 Triever的核心定位能力,我们提出了一个新颖而充满挑战的乐趣 - 068 damental问题:我们可以增强和整合069现有070检索器的信息本地化能力而无需牺牲其固有检索能力吗?首先,083072为了应对这些挑战,我们提出了一个073新颖的方法齿轮(ge neration-a u摘要074 r etrieval)。具体来说,我们将数据构建为075(查询文档信息)的三元组,但仍使用076对比度学习来优化相似度为-077 deween the查询和文档。在相同的078时间,我们设计了一个文本解码器,以在文档080中生成Rel-079 Evant Evant Evant-evant Ever-Graining信息,以增强RE-081 recy-081 threval和本地化功能。尽管082概念很简单,但仍有许多挑战。
统一信息提取(UIE)旨在从非结构化文本中提取各种结构化信息。虽然大型语言模型(LLMS)对UIE表现出了希望,但它们需要大量的计算资源,并且经常难以推广到看不见的任务。我们提出了Ruie(基于r Etrieval的U NIDIFIED I NFORMATION e XTRACTION),该框架利用了文本学习以进行有效的任务概括。ruie介绍了一种新颖的演示选择机制,将LLM偏好与关键字增强的模型相结合,并采用了通过对比度学习和知识蒸馏而训练的双重编码猎犬。作为UIE的第一个可训练的检索框架,Ruie是各种LLM的Univer-sal插件。八个持有数据集的实验结果证明了Ruie的有效性,与指导调用方法和其他检索器相比,F1得分的平均改善分别为19.22和3.22。
源文档的。 此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。 ,2024)。 044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document. 尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。 此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。 060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。 ,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效? 069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。。此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。,2024)。044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document.尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效?069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。071在我们的方法中,大型视觉模型072(VLM)处理单个或多个检索的文档图像,不仅为074产生了对074用户查询的答案,而且还返回了075框架内的相关区域内的相关区域。076如图1所示,此方法通过视觉上指示文档中的确切078位置来启用di-077 rect归因,从而允许用户在080原始上下文中快速检查生成答案的原始上下文中的支持证据。VLMS 081不受文档格式或渲染的限制,082
文本到SQL通过使非专家将其自然语言(NL)问题转换为结构化查询语言(SQL)查询来简化数据库交互。随着大语言模型(LLM)的进步,内在学习(ICL)已成为构建文本到SQL系统的流行选择。现实世界,行业规模的数据库通常包括表和数百列的桌子,并使整个模式将整个模式作为LLM的上下文不可估量昂贵。此要求访问正确的数据库和表集。最近提出了基于增强的增强剂(RAG)方法,用于检索给定查询的数据库和表的相关子集。但是,我们观察到,现有的合成查询生成方法可以产生主要简单的查询,这些查询可能无法充分代表复杂的现实世界查询,因此对生成的SQL的质量产生负面影响。为了解决这个问题,我们提出了一种基于创新的内在强化学习(ICRL)的框架,该框架通过增强模型生成了实践者在推理期间可能构成的复杂查询的能力来完善问题的生成过程。与现有方法相反,我们的框架与多样化和复杂的合成SQL查询产生。我们通过多个实验与公共标准数据集中的代表性最先进模型进行了比较,揭示了我们的方法的有效性,并观察到性能和可伸缩性的实质性提高。与用于识别模式的最新模型相比,数据库/表检索任务中的回忆提高了15-20%,而SQL生成的执行精度高达2%。
2不合理的研究人员,浦那。摘要可以创建许多类型的摘要,具体取决于输入文件的性质,无论是与法律,医学或其他领域有关的。首先了解主题很重要,因为不同的文档需要不同的处理方法。突出显示要点对于关注特定句子至关重要。根据主题和所需的输出,可以使用各种摘要模型。在这种情况下,我们特别关注抹布系统,以及它如何有益于取得更好的结果。关键字:检索方法,生成方法,动态知识集成,流利的语言生成,抹布(检索效果生成)1。引言在出现诸如抹布之类的高级方法之前,采用了各种方法来解决与语言有关的问题。这些可以大致分为两种类型:1。提取(在不更改句子结构的情况下检索信息)2。摘要(通过句子改革的信息检索)这些方法为诸如RAG之类的高级框架奠定了基础,这些方法将检索与生成结合起来,以获得更具动态和准确的结果。1。基于检索的方法这些方法在维护句子的原始措辞和结构时检索相关数据。常见的示例包括提取性摘要,其中关键短语或句子是直接从源中选择而没有修改的[1]。a。有效但缺乏语义理解。传统信息检索(IR)方法TF-IDF(术语频率为单位的文档频率):基于术语频率分段文档频率分数的排名文档。tf-idf是一种统计指标,用于评估文档中单词相对于文档的集合(或语料库)的重要性[2]。它广泛用于文本挖掘和信息检索任务,例如文档排名和关键字提取[3]。BM25(最佳匹配25):对TF-IDF的改进,结合了术语饱和度和文档长度归一化[4]。广泛用于搜索引擎的基于相关性的排名。BM25是一种基于TF-IDF基础的高级信息检索算法,它解决了其一些关键局限性[5]。它被广泛认为是搜索引擎和文本检索系统
监管文件是许多行业的关键组成部分,包括金融,医疗保健和保险,以遵守标准和法律。这些文档的特征是复杂的法律术语,层次结构和频率更新。因此,这给解释和实施带来了困难。这些不兼容性导致负面结果,例如重大的经济惩罚,声誉丧失和运营中断。监管文件的复杂性提出了有效的信息检索和合成的先进系统的必要性。检索功能生成(RAG)系统为检索机制和答案生成提供了有希望的解决方案。先前在监管自然语言处理(REGNLP)的研究发现了POTEN-
最先进的神经检索者主要关注英语等高源语言,这阻碍了他们在涉及其他语言的检索中采用。当前通过杠杆化的多语言审计语言模式,可以证明缺乏非英语语言的高质量标记数据。但是,这些模型需要多种语言的大量特定于任务特定的微调,通常在训练阶段的语料库中以最少的反映语言表现较差,以在培训阶段之后结合新语言。在这项工作中,我们提出了一个新颖的模块化检索模型,该模型从单个高资源语言的丰富数据中学习,并有效地转移到各种语言,从而消除了对语言特定标记的数据的需求。我们的模型Colbert-XM展示了与现有的最新的多语言检索器相对的性能,这些猎犬在更广泛的数据集中以各种语言进行了培训。进一步的分析表明,我们的模块化方法具有高度的数据效率,有效地适应了分布数据,并大大减少了能耗和碳排放。通过证明其在零拍摄的Sce-Narios中的熟练程度,Colbert-XM标志着向更可持续和包容的检索系统的转变,从而使有效的信息可以使用多种语言获得。我们将公开发布社区的代码和模型。
抽象疾病管理,特别是对于慢性病或老年人,涉及持续监测,生活方式调整和频繁的医疗互动,需要有效的家庭护理解决方案。为了满足这些需求,聊天机器人技术已成为支持患者自主管理健康的有前途的工具。在这种情况下,聊天机器人必须提供及时,准确的信息和持续的善解人意支持,以维持患者的参与度。此外,数据隐私问题需要避免第三方自然语言处理和发电服务。为了满足这些需求,在本文中,我们建议开发聊天机器人,以支持患者管理慢性病,重点关注高血压。特别是,由于隐私要求,我们使用开源大型语言模型来避免专有系统。鉴于他们的性能基于最先进的指标,我们不竞争第三方服务,因此我们结合了检索增强发电(RAG)技术,建立了一个知识库,并通过医学专业人员的投入来提高模型性能。我们评估了七个开源型号,其中包括两个在医疗领域进行的专门培训。我们的结果表明,抹布可显着提高性能,超过没有抹布的专门医疗域模型。这种方法提供了一种有希望的解决方案,用于独立安全地管理慢性条件。
基于关键字的搜索是当今数字库中的标准。然而,像科学知识库中的复杂检索场景一样,需要更复杂的访问路径。尽管每个文档在某种程度上有助于一个领域的知识体系,但关键字之间的外部结构,即它们的可能关系以及每个单个文档中跨越的上下文对于有效检索至关重要。遵循此逻辑,可以将单个文档视为小规模的知识图,图形查询可以提供重点文档检索。我们为生物医学领域实施了一个完全基于图的发现系统,并证明了其过去的好处。不幸的是,基于图的检索方法通常遵循“确切的匹配”范式,该范式严重阻碍了搜索效率,因为确切的匹配结果很难按相关性进行排名。本文扩展了我们现有的发现系统,并贡献了有效的基于图的无监督排名方法,一种新的查询放松范式和本体论重写。这些扩展程序进一步改善了系统,因此由于部分匹配和本体论重写,用户可以以更高的精度和更高的回忆来检索结果。
摘要....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... 2
