英国国家语料库收集了 4000 多个现代英国英语口语和书面语样本,这些样本以电子形式存储,经过精心挑选,尽可能反映出该语言的使用者和用法。该语料库共收录了超过 1 亿个单词,目前词典编纂者正在使用该语料库编纂词典,计算机科学家正在使用该语料库使机器“理解”并生成自然语言,语言学家正在使用该语料库描述英语,语言教师和学生正在使用该语料库教授和学习英语 — 这些只是该语料库的部分应用。欧洲各地的机构都购买了 BNC 并将其安装在计算机上,用于研究。但是,使用 BNC 语料库并不需要拥有一份副本:也可以通过互联网使用万维网或专门为此开发的 SARA 软件系统来查阅该语料库。BNC 手册提供了与语料库一起分发并在网络服务上使用的 SARA 软件的全面指南。它说明了从 BNC 中了解当代英语用法的一些方法,旨在鼓励广大公众使用该语料库。我们尽可能避免使用行话和不必要的技术细节;本书只假设读者对语言和语言问题感兴趣。该手册分为三个主要部分。它以介绍开始
摘要 本文综合了教师的观点、学习者产出和学习者印象的分析、材料开发的想法以及总结性研究者的观察结果,这些观察源于在美国两个大学和成人留学环境中实施为期一学期(约 8 周的教学)的基于语料库和数据驱动的英语作为第二语言 (ESL) 教学。案例研究 1 调查了学习者和教师对语料库教学在培养专门为中国访问学者群体设计的学术写作技能方面的有效性的态度。案例研究 2 采用混合方法、探索性调查,研究使用支架式学生工作表指导不同熟练程度的学习者在一所位于美国的非营利性私人机构为期一学期的留学项目中使用语料库和语料库工具的情况。该工作表旨在定期将基于语料库的课程和数据纳入课堂教学或家庭作业活动。结果表明,教师们对将语料库工具纳入自己的语言课堂教学中可能带来的巨大而有希望的好处充满热情。通过具体明确的学习目标和使用指导,语料库工具可以成为课程期间和课程结束后适合学生的宝贵资源。
神经机器翻译模型再现其培训数据中存在的性别偏见,尤其是从性别中性语言(如英语)翻译成像西班牙语(如西班牙语)的语法性别语言时。本文通过将最先进的语言调整为性别平衡且合成生成的领域来调整性别偏见。我们的方法涉及使用以结构化提示为指导的大语言模型(LLM)的合成数据扩展,因为它对可扩展数据增强具有很大的好处。我们首先识别LLM和提示组合,该组合生成最准确,最少偏见的反事实句子。实验表明,当由更广泛的示例,逐步推理引导时,Llama 2-13B模型表现最好,并使用模型所需的相同语言来完成任务。使用此设置,我们增加了一个具有性别修饰句子的数据集,然后使用Lora来调整NLLB模型,Lora是一种参数效率的方法,仅训练模型参数的1.5%。我们的实验表明,在不影响翻译质量的情况下,性别偏差的统计学显着降低。较大的数据集结合了事实和合成反事实,并滤除低质量生成的示例有助于更有效地概括性别语言模式。这些结果具有更广泛的含义:首先,参数有效的微调可以以较小的计算成本减少性别偏见;其次,llm aigment的数据集可以匹配其他合成增强方法的有效性。
此版本是 TUAR v1.0.0 的更新,后者是一个部分注释的数据库。在 v1.0.0 中,使用了类似的五路系统以及额外的“空”标签。“空”标签涵盖未注释的任何内容,包括工件实例。在 v1.0.0 中,只有有限数量的工件被注释。在此更新版本中,工件的每个实例都经过注释;最终,这为用户提供了信心,即记录中未使用五个类别之一注释的任何部分都不包含工件。v2.0.0 中没有添加新文件、患者或会话。但是,数据已使用这些标准重新注释。文件总数保持不变,但工件事件的数量显着增加。注释完成并发布数据后,将提供有关语料库的完整统计数据。预计这将在 7 月初发生 - 就在 IEEE SPMB 提交截止日期之后。
摘要 本文介绍了第一个用所有模态和神经生理信号记录的自然会话语料库。五对二元组(10 名参与者,西班牙语母语人士)被记录了三次,分为三个会话(每个会话约 30 分钟),间隔 4 天。在每个会话期间,都会捕获音频和视频以及神经信号(使用 Emotiv-EPOC 的 EEG)和电生理信号(使用 Empatica-E4)。该资源在多个方面都是原创的。从技术上讲,它是第一个在自然对话情况下收集所有这些类型数据的资源。此外,在不同时期记录相同的二元组为新的纵向研究打开了大门,例如对话者阵营随时间的演变。本文在文献中定位了这种新型资源,介绍了实验设置并描述了丰富语料库的不同注释。
特定于领域的命名实体识别(NER)的意义,尤其是在法律和医学等领域,要求进行更深入的研究和实现。NER在医疗NLP中的作用如下:首先,NER有助于处理医学术语。医学ner使语言模型能够识别和处理医疗术语和行话。接下来,它有助于从非结构化数据中提取信息。实际上,Pearson等。(2021)已经执行了NER来重新移动或从非结构化医疗数据集中编码信息。此外,NER有助于敏感的患者特定信息的匿名性(Catelli等人,2021)。但是,医疗数据集不足是有问题的。这个问题变得更加具有挑战性,因为特定领域的NER任务需要广泛的标签,尤其是对于疾病,身体和治疗等特定实体类别。由于需要专家级知识,因此难以进一步放大。数据稀缺问题在诸如韩文等相对低资源的语言中会恶化。没有开源医疗数据集的韩国人证明了问题的严重性。为了解决数据稀缺问题,我们介绍了KBMC(韩国生物医生),这是第一个针对韩国的开源医疗数据集。我们利用chatgpt 1进行有效的句子创建。随后,我们注释了与生物格式下的疾病名称,身体部位和治疗相对应的实体。增加数据集并检查一般文本中的性能,
摘要 随着企业致力于增强和扩大其产品组合,技术机会发现 (TOD) 越来越受到关注。为了理解新兴技术在创新中的作用,我们引入了一种新的英语和日语技术市场语料库,并对技术与市场之间的联系进行了全面的实证评估。我们的数据集包括从 USPTO 数据库中提取的英文专利和从日本专利局 (JPO) 提取的日文专利,以及每家股票市场公司的相关产品。我们比较了几种静态和上下文化的词嵌入方法来构建技术市场空间,并提出了一种基于微调 BERT 模型的有效方法,用于将技术与市场联系起来。
人类语言最引人注目的特征之一是它们的极端变化。更加惊人的是,在统治其形式和功能的强烈代表性和认知规律的明显变化背后的存在:语言普遍性。我们在这里讨论我们小组的一些最新工作,其中大规模,数据密集型计算建模技术用于解决有关语言规律性的基本语言问题。在单词顺序区域中,我们在此处报告工作,这些工作利用大量单语和平行语料库数据来开发名词短语(通用20)和一般结构最小化原则的内部结构的计算模型。在事件持续时间的领域,我们报告的工作利用了深厚的相似性和表面差异来开发真正的跨语言自然语言处理工具。
利用富文本刺激的脑电图 (EEG) 数据集可以促进对大脑如何编码语义信息的理解,并有助于脑机接口 (BCI) 中的语义解码。针对包含中文语言刺激的 EEG 数据集稀缺的问题,我们提出了 ChineseEEG 数据集,这是一个高密度 EEG 数据集,并辅以同步眼动追踪记录。该数据集是在 10 名参与者默读两部著名小说中约 13 小时的中文文本时编制的。该数据集提供长时间的 EEG 记录,以及预处理的 EEG 传感器级数据和由预训练的自然语言处理 (NLP) 模型提取的阅读材料的语义嵌入。作为源自自然中文语言刺激的试点 EEG 数据集,ChineseEEG 可以显著支持神经科学、NLP 和语言学的研究。为中文语义解码建立了基准数据集,有助于脑机接口的发展,并有助于探索大型语言模型与人类认知过程的契合。它还可以帮助研究中文自然语言背景下的大脑语言处理机制。
1.2 挑战与影响 ARC 公开测试中,人类的平均表现准确率超过 60%[ 3 ]。相反,最有能力的模型利用 SOTA LLM[ 4 ] 也只能达到 50% 以下的准确率。考虑到大量的预训练数据,当前人工智能与人类之间的差距更加明显。对 ARC 竞赛解决方案的研究可以为我们对人类思维中的直觉和推理过程进行建模提供重要见解,促进新型人工智能范式的构建。同时,“[至少,解决 ARC-AGI 将产生一种新的编程范式[ 5 ]”,只需展示几个输入输出示例,就可以让没有编码经验的人进行程序合成。2 竞赛细节 数据集 ARC Prize 竞赛提供三个数据集:公共训练集、公共评估集和私有评估集。公共训练集和公共评估集均包含 400 个任务文件,而私有评估集包含 100 个任务文件。每个任务有 2 到 10 对(通常为 3 个)示例和 1 到 3 对(通常为 1 个)测试[2, 6]。指标 我们可以通过两种方法评估性能: 1)像素正确性 - 正确推断的像素占总数的百分比; 2)正确/不正确 - 推断的输出在形状、颜色和位置方面是否与任务的测试输出相匹配。竞赛使用第二种方法评估提交内容[6]。