摘要:信息提取(IE)是自然语言处理(NLP)和计算机视觉的基本任务,旨在自动从非结构化数据源(例如文本,图像和视频)中提取结构化信息。本文对各种IE技术进行了全面的调查,重点介绍了指定的实体识别(NER),关系提取(RE)和意见分类。我们讨论了基于规则的,无监督,监督和深度学习方法,以突出其优势和局限性。此外,我们还探讨了IE在不同应用中的作用,包括学术文献数据库,商业智能,医疗保健,专利分析和客户服务。此外,我们研究了应用于图像和视频的IE方法,涵盖了视觉关系检测,光学特征识别(OCR)和自动视频摘要。本文还解决了诸如域适应,模棱两可,数据隐私和计算效率之类的挑战。最后,我们概述了未来的研究方向,强调了多模式IE的整合,深度学习的进步和实时处理。关键字:信息提取(IE),命名实体识别(NER),关系提取(RE),意见分类,基于特征的监督学习,IE深度学习,文本挖掘,光学角色识别(OCR)和自然语言处理(NLP)。I.简介信息提取(IE)是从非结构化或半结构化数据源(例如文本文档,图像和视频)中自动识别,提取和构造相关信息的过程。它涉及将原始数据转换为有意义的结构化表示形式的技术,从而促进了下游任务,例如知识图构造,问题答案和信息检索[1]。IE主要着重于提取特定类型的信息,包括:
摘要。本文重点研究历史手写结婚记录中的信息提取。传统方法依赖于两个连续任务的顺序流水线:在命名实体识别之前应用手写识别。最近,人们研究了同时处理这两个任务的联合方法,并取得了最先进的成果。然而,由于这些方法已在不同的实验条件下使用,因此尚未对它们进行公平比较。在这项工作中,我们对基于相同基于注意的架构的顺序和联合方法进行了比较研究,以量化可归因于联合学习策略的收益。我们还研究了三种基于多任务或多尺度学习的新联合学习配置。我们的研究表明,依靠联合学习策略可以使完整识别分数提高 8%。我们还强调了多任务学习的兴趣,并展示了基于注意的网络对信息提取的好处。我们的工作在 Esposalles 数据库上的 ICDAR 2017 信息提取竞赛中以行级实现了最先进的性能,无需任何语言建模或后处理。
互联网的出现彻底改变了我们如何访问和利用信息。因此,从Web-Browser中提取数据已成为各种应用程序的关键任务。随着在线信息的数量和多样性继续增长,对高效,准确的数据提取方法的需求变得越来越急切。响应这种需求,我们提出了一种创新解决方案:使用Yolo和Haar Cascade算法的基于网络摄像头的对象检测系统,旨在优化和增强直接从Gemini AI中提取相关数据的过程。传统的网络刮擦和数据提取方法通常由于动态的网页结构,多样化的内容格式以及对不断发展的网站的持续改编而面临挑战。我们提出的系统通过在熟悉的环境中整合高级对象检测技术来有效地解决这些挑战。这种方法不仅简化了数据提取过程,还可以解锁自动化和自定义的新机会。该系统与流行的Yolo3和Haar Cascade算法无缝集成,为个人和组织提供了一个用户友好的界面。利用最新的对象检测模型,系统准确地识别了嵌入Web内容中的各种对象,例如图像和多媒体元素。此功能对于自动化任务特别有价值
统一信息提取(UIE)旨在从非结构化文本中提取各种结构化信息。虽然大型语言模型(LLMS)对UIE表现出了希望,但它们需要大量的计算资源,并且经常难以推广到看不见的任务。我们提出了Ruie(基于r Etrieval的U NIDIFIED I NFORMATION e XTRACTION),该框架利用了文本学习以进行有效的任务概括。ruie介绍了一种新颖的演示选择机制,将LLM偏好与关键字增强的模型相结合,并采用了通过对比度学习和知识蒸馏而训练的双重编码猎犬。作为UIE的第一个可训练的检索框架,Ruie是各种LLM的Univer-sal插件。八个持有数据集的实验结果证明了Ruie的有效性,与指导调用方法和其他检索器相比,F1得分的平均改善分别为19.22和3.22。
视觉丰富文档理解 (VRDU) 领域旨在解决多模态领域中大量已得到充分研究的 NLP 任务。目前已有多个数据集用于研究 VRDU 的特定任务,例如文档分类 (DC)、关键实体提取 (KEE)、实体链接、视觉问答 (VQA) 等。这些数据集涵盖带有稀疏注释的文档(如发票和收据),因此它们支持一到两个相关任务(例如实体提取和实体链接)。遗憾的是,只关注单一特定类型的文档或任务并不能代表文档在实际中通常需要如何处理 — — 在实际中,文档的风格和要求会多种多样。在本文中,我们介绍了 BuDDIE(用于信息提取的业务文档数据集),1 这是第一个包含 1,665 份真实业务文档的多任务数据集,其中包含丰富而密集的 DC、KEE 和 VQA 注释。我们的数据集由美国州政府网站上的公开业务实体文件组成。这些文件的结构化和样式和布局因州和类型(例如表格、证书、报告等)而异。我们为 BuDDIE 提供了数据多样性和质量指标,以及每个任务的一系列基线。我们的基线涵盖了 VRDU 的传统文本、多模态和大型语言模型方法。
1材料科学与工程系,麻省理工学院,马萨诸塞州剑桥市02139,美国2 Cavendish Laboratory,剑桥大学,J。J。J. Thomson Avenue,剑桥CB3 0HE,英国CB3 0HE,ISIS NETRICH和MUON SOUNTIR,RUTHERFORD APPLELON LABORATION,HARWELE CACK,INSEROC,INSERIS,IDCOT,DIDCOT,DIDCOT,DIDC11工程与生物技术学,剑桥大学,西剑桥大学,菲利帕·福塞特大道,剑桥CB3 0AS,英国5美国加利福尼亚州伯克利实验室94720,美国8材料科学部,劳伦斯·利弗莫尔国家实验室,加利福尼亚州利弗莫尔94550,美国
在这项工作中,我们研究了大语言模型(LLMS)在Portuguese语言中的开放信息提取(OpenIE)的潜力。虽然大多数开放的方法主要针对英语进行了优化,但文献中只有很少的作品探讨了它们用于跨语性和多语言场景的用途。devite对葡萄牙开放式方法的兴趣日益增长,以葡萄牙为以葡萄牙语为中心的LLMS仍然是该地区的一个欠发达的话题。我们的研究通过检查使用开放式和商业LLM的可行性来解决这一研究差距,并促使葡萄牙开放式开放式开放式葡萄牙人促进了葡萄牙人的工程。我们提供了这些LLM在操作任务中的性能的分析,表明它们实现了与最先进的系统相媲美的表现指标。此外,我们对Openie(Portoie-Llama)进行了微调,并推出了一个开放式LLM,在我们的实验中表现优于商业LLM。我们的发现突出了LLM在葡萄牙开放式任务中的潜力,并建议对较大模型的进一步完善和细调可以增强这些结果。
摘要:SLAM是一种至关重要的技术,用于实现无人车辆的自主导航和定位。传统的视觉同时本地化和映射算法建立在静态场景的假设上,从而忽略了动态目标在现实世界环境中的影响。来自动态目标的干扰可以显着降低系统的定位精度,甚至导致跟踪故障。为了解决这些问题,我们提出了一个名为S-Slam的动态视觉大满贯系统,该系统基于“同样和语义信息提取”。最初,引入了词汇描述符来描述定向的快速特征点,从而提高了特征点匹配的精度和速度。随后,fasternet替换了Yolov8的骨干网络以加快语义信息提取。通过使用DBSCAN聚类对象检测的结果,获得了更精致的语义掩码。最后,通过利用语义面膜和表现约束,可以辨别和消除动态特征点,从而仅利用仅利用静态特征点进行姿势估计,并构建了不包括动态目标的密集3D地图。在TUM RGB-D数据集和现实世界情景上进行了实验评估,并证明了拟议算法在滤除场景中的动态目标方面的有效性。与Orb-Slam3相比,TUM RGB-D数据集的本地化准确性提高了95.53%。针对经典动态大满贯系统的比较分析进一步证实了通过lam的定位准确性,地图可读性和鲁棒性的提高。
为了解决高光谱遥感数据处理中遇到的同构问题,提高高光谱遥感数据在岩性信息提取与分类的精度,以岩石为研究对象,引入反向传播神经网络(BPNN),对高光谱图像数据进行归一化处理后,以岩性光谱与空间信息为特征提取目标,构建基于深度学习的岩性信息提取模型,并使用具体实例数据分析模型的性能。结果表明:基于深度学习的岩性信息提取与分类模型总体精度为90.58%,Kappa系数为0.8676,能够准确区分岩体性质,与其他分析模型相比具有较好的性能。引入深度学习后,提出的BPNN模型与传统BPNN相比,识别精度提高了8.5%,Kappa系数提高了0.12。所提出的提取及分类模型可为高光谱岩矿分类提供一定的研究价值和实际意义。