我们的项目旨在应对通过冗长的施工文档有效搜索特定信息的挑战,在这种信息中,由于潜在的幻觉,使用典型的生成模型是不可取的。将实现两个部分提取问题答案模型。第一部分将由信息检索(IR)模型组成,例如BM25算法,查询和文档之间的余弦相似性,以及与MUGI(多文本生成集成)的BM25。对于第二部分,我们将仅编码的体系结构用作提取问题答案(EQA)模型,考虑到Bert,Roberta和Longformer之类的模型以获得最佳性能。在一小部分工程文档样本上进行的初步测试显示了基线至末端精度为.18,其中BM25具有K = 1的BM25,并使用了BERT模型。在使用MUGI和Roberta模型进行BM25进行进一步测试后,达到了.2的端到端精度。最终BM25没有Mugi No Reranking提出的结果比基线BM25更好,并且在提取问题回答部分中,Roberta模型表现最好。
2不合理的研究人员,浦那。摘要可以创建许多类型的摘要,具体取决于输入文件的性质,无论是与法律,医学或其他领域有关的。首先了解主题很重要,因为不同的文档需要不同的处理方法。突出显示要点对于关注特定句子至关重要。根据主题和所需的输出,可以使用各种摘要模型。在这种情况下,我们特别关注抹布系统,以及它如何有益于取得更好的结果。关键字:检索方法,生成方法,动态知识集成,流利的语言生成,抹布(检索效果生成)1。引言在出现诸如抹布之类的高级方法之前,采用了各种方法来解决与语言有关的问题。这些可以大致分为两种类型:1。提取(在不更改句子结构的情况下检索信息)2。摘要(通过句子改革的信息检索)这些方法为诸如RAG之类的高级框架奠定了基础,这些方法将检索与生成结合起来,以获得更具动态和准确的结果。1。基于检索的方法这些方法在维护句子的原始措辞和结构时检索相关数据。常见的示例包括提取性摘要,其中关键短语或句子是直接从源中选择而没有修改的[1]。a。有效但缺乏语义理解。传统信息检索(IR)方法TF-IDF(术语频率为单位的文档频率):基于术语频率分段文档频率分数的排名文档。tf-idf是一种统计指标,用于评估文档中单词相对于文档的集合(或语料库)的重要性[2]。它广泛用于文本挖掘和信息检索任务,例如文档排名和关键字提取[3]。BM25(最佳匹配25):对TF-IDF的改进,结合了术语饱和度和文档长度归一化[4]。广泛用于搜索引擎的基于相关性的排名。BM25是一种基于TF-IDF基础的高级信息检索算法,它解决了其一些关键局限性[5]。它被广泛认为是搜索引擎和文本检索系统
摘要 - 重定位级代码完成旨在在指定存储库的上下文中为未完成的代码段生成代码。现有方法主要依赖于检索增强的生成策略,这是由于输入序列长度的限制。然而,BM25(例如BM25)努力捕获代码语义的传统基于词汇的检索方法,而基于模型的检索方法由于缺乏标记的培训数据而面临挑战。因此,我们提出了一种新颖的增强学习框架RLCoder,它可以使得猎犬能够学习检索有用的内容以完成代码完成,而无需标记数据。具体来说,当将检索到的内容作为附加上下文提供时,我们根据目标代码的困惑迭代评估了检索内容的有用性,并提供了反馈以更新回收者参数。这个迭代过程使得猎犬能够从其成功和失败中学习,从而逐渐提高其检索相关和高质量内容的能力。考虑到并非所有情况都需要超出代码文件的信息,并且并非所有检索到上下文都对生成有所帮助,我们还引入了停止信号机制,从而允许检索员决定何时检索以及哪些候选者自动保留。广泛的实验结果表明,RLCODER始终优于交叉码头和reboeval的最先进方法,比以前的方法实现了12.2%的EM改进。此外,实验表明,我们的框架可以跨越不同的编程语言概括,并进一步改善了诸如RecoCoder之类的先前方法。索引术语 - 固定级代码完成,增强学习,困惑,停止信号机制
摘要 文本检索和语义分割的应用具有很大的潜力,可以改变法律研究行业的格局,使任何人都可以更轻松地获取和负担得起相关信息。在本工作论文中,我们介绍了一些新方法,作为人工智能法律援助 (2020) 的一部分,这是信息检索评估论坛-2020 的一个重要活动。在本文的第一部分,我们使用基于 BM 25、主题嵌入和 Law2Vec 嵌入的方法确定了所提供查询的相关先前案例和法规。对于第二部分,我们使用 BERT 将法律案件文件语义分割为七个预定义标签或“修辞角色”。在第一个任务中,我们在 P@10 和 BPREF 指标中的表现使我们位居前两名。另一方面,我们针对第二个任务的 BERT 实现获得了 .479 的宏精度,仅比表现最佳的方法低 .027。关键词 1 nlp、词嵌入、主题嵌入、bm25、先例检索、信息检索、法规检索、bert、修辞角色、分类、法律 1。介绍
测量文本的语义相似度在自然语言处理领域的各种任务中起着至关重要的作用。在本文中,我们描述了一组我们进行的实验,以评估和比较用于测量短文本语义相似度的不同方法的性能。我们对四种基于词向量的模型进行了比较:Word2Vec 的两个变体(一个基于在特定数据集上训练的 Word2Vec,另一个使用词义的嵌入对其进行扩展)、FastText 和 TF-IDF。由于这些模型提供了词向量,我们尝试了各种基于词向量计算短文本语义相似度的方法。更准确地说,对于这些模型中的每一个,我们测试了五种将词向量聚合到文本嵌入中的方法。我们通过对两种常用的相似度测量进行变体引入了三种方法。一种方法是基于质心的余弦相似度的扩展,另外两种方法是 Okapi BM25 函数的变体。我们在两个公开可用的数据集 SICK 和 Lee 上根据 Pearson 和 Spearman 相关性对所有方法进行了评估。结果表明,在大多数情况下,扩展方法的表现优于原始方法。关键词:语义相似度、短文本相似度、词嵌入、Word2Vec、FastText、TF-IDF
[3]基思·柯林斯(Keith Collins)。2016。一个程序员如何通过删除一小部分代码来打破互联网。https://qz.com/646467/how-ono-programmer-broke-the-internet-by-deleting-a- a-a-a-a-a-piece-a-piece-of-of-of-of-of [4] dalerka。 2020。 [病毒报告] -Clamtk在这个非常受欢迎的软件包中发现了“ pua.win.trojan.xord -1”。 https://github.com/jensyt/imurmurhash-js/issues/1 [5] Alexandre Decan,Tom Mens和Eleni Constantinou。 2018。 关于安全漏洞在NPM软件包依赖网络中的影响。 在MSR中。 ACM,纽约,纽约,美国,181-191。 [6]开源安全基金会。 2024。 alpha-Omega。 https://github.com/ossf/alpha-omega [7] Antonios Gkortzis,Daniel Feitosa和Diomidis Spinellis。 2019。 一把双刃剑? 软件重用和潜在的安全漏洞。 在大数据时代的再利用中:第18届软件和系统重用国际会议,ICSR 2019,俄亥俄州辛辛那提,俄亥俄州,美国,2019年6月26日至28日,会议记录18。 Springer,187–203。 [8] Raula Gaikovina Kula,Ali Ouni,Daniel M German和Katsuro Inoue。 2017。 对微包的影响:NPM JavaScript生态系统的实证研究。 Arxiv预印ARXIV:1709.04638(2017)。 [9] Raula Gaikovina Kula和Christoph Treude。 2022。 战争与和平:世界政治对软件生态系统的影响。 在esec/fse中。 1600–1604。 [10] Wayne C Lim。 1994。 对质量,生产力和经济学的重复使用影响。 2024。https://qz.com/646467/how-ono-programmer-broke-the-internet-by-deleting-a- a-a-a-a-a-piece-a-piece-of-of-of-of-of [4] dalerka。2020。[病毒报告] -Clamtk在这个非常受欢迎的软件包中发现了“ pua.win.trojan.xord -1”。https://github.com/jensyt/imurmurhash-js/issues/1 [5] Alexandre Decan,Tom Mens和Eleni Constantinou。2018。关于安全漏洞在NPM软件包依赖网络中的影响。在MSR中。ACM,纽约,纽约,美国,181-191。 [6]开源安全基金会。 2024。 alpha-Omega。 https://github.com/ossf/alpha-omega [7] Antonios Gkortzis,Daniel Feitosa和Diomidis Spinellis。 2019。 一把双刃剑? 软件重用和潜在的安全漏洞。 在大数据时代的再利用中:第18届软件和系统重用国际会议,ICSR 2019,俄亥俄州辛辛那提,俄亥俄州,美国,2019年6月26日至28日,会议记录18。 Springer,187–203。 [8] Raula Gaikovina Kula,Ali Ouni,Daniel M German和Katsuro Inoue。 2017。 对微包的影响:NPM JavaScript生态系统的实证研究。 Arxiv预印ARXIV:1709.04638(2017)。 [9] Raula Gaikovina Kula和Christoph Treude。 2022。 战争与和平:世界政治对软件生态系统的影响。 在esec/fse中。 1600–1604。 [10] Wayne C Lim。 1994。 对质量,生产力和经济学的重复使用影响。 2024。ACM,纽约,纽约,美国,181-191。[6]开源安全基金会。2024。alpha-Omega。https://github.com/ossf/alpha-omega [7] Antonios Gkortzis,Daniel Feitosa和Diomidis Spinellis。 2019。 一把双刃剑? 软件重用和潜在的安全漏洞。 在大数据时代的再利用中:第18届软件和系统重用国际会议,ICSR 2019,俄亥俄州辛辛那提,俄亥俄州,美国,2019年6月26日至28日,会议记录18。 Springer,187–203。 [8] Raula Gaikovina Kula,Ali Ouni,Daniel M German和Katsuro Inoue。 2017。 对微包的影响:NPM JavaScript生态系统的实证研究。 Arxiv预印ARXIV:1709.04638(2017)。 [9] Raula Gaikovina Kula和Christoph Treude。 2022。 战争与和平:世界政治对软件生态系统的影响。 在esec/fse中。 1600–1604。 [10] Wayne C Lim。 1994。 对质量,生产力和经济学的重复使用影响。 2024。https://github.com/ossf/alpha-omega [7] Antonios Gkortzis,Daniel Feitosa和Diomidis Spinellis。2019。一把双刃剑?软件重用和潜在的安全漏洞。在大数据时代的再利用中:第18届软件和系统重用国际会议,ICSR 2019,俄亥俄州辛辛那提,俄亥俄州,美国,2019年6月26日至28日,会议记录18。Springer,187–203。[8] Raula Gaikovina Kula,Ali Ouni,Daniel M German和Katsuro Inoue。2017。对微包的影响:NPM JavaScript生态系统的实证研究。Arxiv预印ARXIV:1709.04638(2017)。[9] Raula Gaikovina Kula和Christoph Treude。2022。战争与和平:世界政治对软件生态系统的影响。在esec/fse中。1600–1604。[10] Wayne C Lim。1994。对质量,生产力和经济学的重复使用影响。2024。IEEE软件11,5(1994),23–30。 [11] Xing Han Lu。 BM25用于Python:在用BM25s简化依赖性的同时,达到高性能。 https://huggingface.co/blog/xhluca/bm25s [12] sindresorhus。 2018。 路线图的想法。 https://github.com/chalk/chalk/issues/300 [13] sindresorhus.2021。 捆绑依赖项·粉笔/粉笔@04fdbd6。 https://github.com/chalk/chalk/commit/04fdbd6d8d262ed8668cf3f2e94f647d2bc028d8 [14] Snyk。 2024。MS漏洞。 https://security.snyk.io/package/npm/ms [15] Snyk。 2024。打字稿漏洞。 https://security.snyk.io/package/npm/typescript [16] OpenJS Foundation。 [n。 d。]。 node.js - NPM PackageManager的简介。 https://nodejs.org/en/learn/getting-started/an-introduction-to-the-the-npm-package-manager [17] theupsider。 2022。 请合并拉的请求。 https://github.com/jonschlinkert/is-number/issues/35 [18] Supatsara Wattanakriengkrai,Dong Wang,Raula Gaikovina Kula Kula,Christoph Treude,Patanamon Thongtanunam,Takashi Ishio Ishio和Kenichi Mat-sumoto。 2022。 回馈:与软件生态系统中库依赖性更改一致的贡献。 IEEE软件工程交易49,4(2022),2566–2579。 [19] yfrytchsgd。 2021。 github -yfrytchsgd/log4jattacksurface。 https://github.com/yfrytchsgd/log4jattacksurface [20] Markus Zimmermann,Cristian-Alexandru Staicu,Cam Tenny和Michael Pradel。 2019。 在第28届USENIX安全研讨会(USENIX SECurity 19)中。IEEE软件11,5(1994),23–30。[11] Xing Han Lu。BM25用于Python:在用BM25s简化依赖性的同时,达到高性能。https://huggingface.co/blog/xhluca/bm25s [12] sindresorhus。2018。路线图的想法。https://github.com/chalk/chalk/issues/300 [13] sindresorhus.2021。 捆绑依赖项·粉笔/粉笔@04fdbd6。 https://github.com/chalk/chalk/commit/04fdbd6d8d262ed8668cf3f2e94f647d2bc028d8 [14] Snyk。 2024。MS漏洞。 https://security.snyk.io/package/npm/ms [15] Snyk。 2024。打字稿漏洞。 https://security.snyk.io/package/npm/typescript [16] OpenJS Foundation。 [n。 d。]。 node.js - NPM PackageManager的简介。 https://nodejs.org/en/learn/getting-started/an-introduction-to-the-the-npm-package-manager [17] theupsider。 2022。 请合并拉的请求。 https://github.com/jonschlinkert/is-number/issues/35 [18] Supatsara Wattanakriengkrai,Dong Wang,Raula Gaikovina Kula Kula,Christoph Treude,Patanamon Thongtanunam,Takashi Ishio Ishio和Kenichi Mat-sumoto。 2022。 回馈:与软件生态系统中库依赖性更改一致的贡献。 IEEE软件工程交易49,4(2022),2566–2579。 [19] yfrytchsgd。 2021。 github -yfrytchsgd/log4jattacksurface。 https://github.com/yfrytchsgd/log4jattacksurface [20] Markus Zimmermann,Cristian-Alexandru Staicu,Cam Tenny和Michael Pradel。 2019。 在第28届USENIX安全研讨会(USENIX SECurity 19)中。https://github.com/chalk/chalk/issues/300 [13] sindresorhus.2021。捆绑依赖项·粉笔/粉笔@04fdbd6。https://github.com/chalk/chalk/commit/04fdbd6d8d262ed8668cf3f2e94f647d2bc028d8 [14] Snyk。2024。MS漏洞。https://security.snyk.io/package/npm/ms [15] Snyk。 2024。打字稿漏洞。 https://security.snyk.io/package/npm/typescript [16] OpenJS Foundation。 [n。 d。]。 node.js - NPM PackageManager的简介。 https://nodejs.org/en/learn/getting-started/an-introduction-to-the-the-npm-package-manager [17] theupsider。 2022。 请合并拉的请求。 https://github.com/jonschlinkert/is-number/issues/35 [18] Supatsara Wattanakriengkrai,Dong Wang,Raula Gaikovina Kula Kula,Christoph Treude,Patanamon Thongtanunam,Takashi Ishio Ishio和Kenichi Mat-sumoto。 2022。 回馈:与软件生态系统中库依赖性更改一致的贡献。 IEEE软件工程交易49,4(2022),2566–2579。 [19] yfrytchsgd。 2021。 github -yfrytchsgd/log4jattacksurface。 https://github.com/yfrytchsgd/log4jattacksurface [20] Markus Zimmermann,Cristian-Alexandru Staicu,Cam Tenny和Michael Pradel。 2019。 在第28届USENIX安全研讨会(USENIX SECurity 19)中。https://security.snyk.io/package/npm/ms [15] Snyk。2024。打字稿漏洞。https://security.snyk.io/package/npm/typescript [16] OpenJS Foundation。[n。 d。]。node.js - NPM PackageManager的简介。https://nodejs.org/en/learn/getting-started/an-introduction-to-the-the-npm-package-manager [17] theupsider。2022。请合并拉的请求。https://github.com/jonschlinkert/is-number/issues/35 [18] Supatsara Wattanakriengkrai,Dong Wang,Raula Gaikovina Kula Kula,Christoph Treude,Patanamon Thongtanunam,Takashi Ishio Ishio和Kenichi Mat-sumoto。2022。回馈:与软件生态系统中库依赖性更改一致的贡献。IEEE软件工程交易49,4(2022),2566–2579。[19] yfrytchsgd。2021。github -yfrytchsgd/log4jattacksurface。https://github.com/yfrytchsgd/log4jattacksurface [20] Markus Zimmermann,Cristian-Alexandru Staicu,Cam Tenny和Michael Pradel。2019。在第28届USENIX安全研讨会(USENIX SECurity 19)中。具有高风险的小世界:对NPM生态系统中安全威胁的研究。995–1010。
