抽象聚合物被广泛用于不同的领域,并且对提取和组织信息的有效方法的需求正在增加。使用机器学习的自动化方法可以准确地从科学论文中提取相关信息,从而为使用带注释的培训数据提供了一种有希望的解决方案,以自动化信息提取。在本文中,我们引入了一个与聚合物相关的本体论,该本体论具有至关重要的实体和关系,以增强聚合物科学领域的信息提取。我们的本体论是可以自定义的,以适应特定的研究需求。我们提出了Polynere,一种高品质的命名实体识别(NER)和关系提取(RE)语料库,其中包括使用我们的本体学注释的750个聚合物摘要。Polynere的独特特征包括多种实体类型,关系类别,对各种NER设置的支持以及在不同层面上主张实体和关系的能力。Polynere还通过支持证据来促进RE任务中的推理。我们的最新高级方法实验取得了令人有希望的结果,但挑战持续将NER和RE从摘要调整为全文段落。这强调了在聚合物域中需要强大的信息提取系统的需求,这使我们的语料库成为未来发展的宝贵基准。
特定于领域的命名实体识别(NER)的意义,尤其是在法律和医学等领域,要求进行更深入的研究和实现。NER在医疗NLP中的作用如下:首先,NER有助于处理医学术语。医学ner使语言模型能够识别和处理医疗术语和行话。接下来,它有助于从非结构化数据中提取信息。实际上,Pearson等。(2021)已经执行了NER来重新移动或从非结构化医疗数据集中编码信息。此外,NER有助于敏感的患者特定信息的匿名性(Catelli等人,2021)。但是,医疗数据集不足是有问题的。这个问题变得更加具有挑战性,因为特定领域的NER任务需要广泛的标签,尤其是对于疾病,身体和治疗等特定实体类别。由于需要专家级知识,因此难以进一步放大。数据稀缺问题在诸如韩文等相对低资源的语言中会恶化。没有开源医疗数据集的韩国人证明了问题的严重性。为了解决数据稀缺问题,我们介绍了KBMC(韩国生物医生),这是第一个针对韩国的开源医疗数据集。我们利用chatgpt 1进行有效的句子创建。随后,我们注释了与生物格式下的疾病名称,身体部位和治疗相对应的实体。增加数据集并检查一般文本中的性能,
在本章中,我们将讨论语料库分析的一些假设,其中包括与词汇意义,量化,大小,一般可智能程度和反思相关的假设。然后,我们将展示这些假设如何支撑语料库分析的方法,包括词典,语法,话语和注册。然后,我们将根据假设和方法来解释语料库分析的分析技术,包括频率,比例代表,分散,搭配,诱饵,诱饵,语料库比较和关键。最后,我们简要提及了一些高级分析方法,这些方法可以在分析师从上面的技术中收集初始发现后进行。在此过程中,我们提供了研究问题的示例,以展示这些想法如何与技术交流的联系以及进一步的联系。这种假设,方法和技术的概述构成了所有语料库分析出现的知识的基础。这也将是理解语料库分析研究设计的良好背景,这是第3至5章的主题。
摘要 本文介绍了第一个用所有模态和神经生理信号记录的自然会话语料库。五对二元组(10 名参与者,西班牙语母语人士)被记录了三次,分为三个会话(每个会话约 30 分钟),间隔 4 天。在每个会话期间,都会捕获音频和视频以及神经信号(使用 Emotiv-EPOC 的 EEG)和电生理信号(使用 Empatica-E4)。该资源在多个方面都是原创的。从技术上讲,它是第一个在自然对话情况下收集所有这些类型数据的资源。此外,在不同时期记录相同的二元组为新的纵向研究打开了大门,例如对话者阵营随时间的演变。本文在文献中定位了这种新型资源,介绍了实验设置并描述了丰富语料库的不同注释。
此版本是 TUAR v1.0.0 的更新,后者是一个部分注释的数据库。在 v1.0.0 中,使用了类似的五路系统以及额外的“空”标签。“空”标签涵盖未注释的任何内容,包括工件实例。在 v1.0.0 中,只有有限数量的工件被注释。在此更新版本中,工件的每个实例都经过注释;最终,这为用户提供了信心,即记录中未使用五个类别之一注释的任何部分都不包含工件。v2.0.0 中没有添加新文件、患者或会话。但是,数据已使用这些标准重新注释。文件总数保持不变,但工件事件的数量显着增加。注释完成并发布数据后,将提供有关语料库的完整统计数据。预计这将在 7 月初发生 - 就在 IEEE SPMB 提交截止日期之后。
英国国家语料库收集了 4000 多个现代英国英语口语和书面语样本,这些样本以电子形式存储,经过精心挑选,尽可能反映出该语言的使用者和用法。该语料库共收录了超过 1 亿个单词,目前词典编纂者正在使用该语料库编纂词典,计算机科学家正在使用该语料库使机器“理解”并生成自然语言,语言学家正在使用该语料库描述英语,语言教师和学生正在使用该语料库教授和学习英语 — 这些只是该语料库的部分应用。欧洲各地的机构都购买了 BNC 并将其安装在计算机上,用于研究。但是,使用 BNC 语料库并不需要拥有一份副本:也可以通过互联网使用万维网或专门为此开发的 SARA 软件系统来查阅该语料库。BNC 手册提供了与语料库一起分发并在网络服务上使用的 SARA 软件的全面指南。它说明了从 BNC 中了解当代英语用法的一些方法,旨在鼓励广大公众使用该语料库。我们尽可能避免使用行话和不必要的技术细节;本书只假设读者对语言和语言问题感兴趣。该手册分为三个主要部分。它以介绍开始