英国国家语料库收集了 4000 多个现代英国英语口语和书面语样本,这些样本以电子形式存储,经过精心挑选,尽可能反映出该语言的使用者和用法。该语料库共收录了超过 1 亿个单词,目前词典编纂者正在使用该语料库编纂词典,计算机科学家正在使用该语料库使机器“理解”并生成自然语言,语言学家正在使用该语料库描述英语,语言教师和学生正在使用该语料库教授和学习英语 — 这些只是该语料库的部分应用。欧洲各地的机构都购买了 BNC 并将其安装在计算机上,用于研究。但是,使用 BNC 语料库并不需要拥有一份副本:也可以通过互联网使用万维网或专门为此开发的 SARA 软件系统来查阅该语料库。BNC 手册提供了与语料库一起分发并在网络服务上使用的 SARA 软件的全面指南。它说明了从 BNC 中了解当代英语用法的一些方法,旨在鼓励广大公众使用该语料库。我们尽可能避免使用行话和不必要的技术细节;本书只假设读者对语言和语言问题感兴趣。该手册分为三个主要部分。它以介绍开始
摘要 本文综合了教师的观点、学习者产出和学习者印象的分析、材料开发的想法以及总结性研究者的观察结果,这些观察源于在美国两个大学和成人留学环境中实施为期一学期(约 8 周的教学)的基于语料库和数据驱动的英语作为第二语言 (ESL) 教学。案例研究 1 调查了学习者和教师对语料库教学在培养专门为中国访问学者群体设计的学术写作技能方面的有效性的态度。案例研究 2 采用混合方法、探索性调查,研究使用支架式学生工作表指导不同熟练程度的学习者在一所位于美国的非营利性私人机构为期一学期的留学项目中使用语料库和语料库工具的情况。该工作表旨在定期将基于语料库的课程和数据纳入课堂教学或家庭作业活动。结果表明,教师们对将语料库工具纳入自己的语言课堂教学中可能带来的巨大而有希望的好处充满热情。通过具体明确的学习目标和使用指导,语料库工具可以成为课程期间和课程结束后适合学生的宝贵资源。
Daniel Danis,1,2 Michael J. Bamshad,3,4,5 Yasemines Bridges,6 Raymond Dalgleish,Peter J. Freeman,10 Adam S.L. Graves,1 Groza Tud,11,12,13 Peter Hansen,1 Julius O.B. Jacobsen,6 Adam Klockberk,14 Maaike Kusters,15,16 Markus S. Ladewig,1个后卫C.S. Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.Daniel Danis,1,2 Michael J. Bamshad,3,4,5 Yasemines Bridges,6 Raymond Dalgleish,Peter J. Freeman,10 Adam S.L.Graves,1 Groza Tud,11,12,13 Peter Hansen,1 Julius O.B.Jacobsen,6 Adam Klockberk,14 Maaike Kusters,15,16 Markus S. Ladewig,1个后卫C.S.Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.
在本章中,我们将讨论语料库分析的一些假设,其中包括与词汇意义,量化,大小,一般可智能程度和反思相关的假设。然后,我们将展示这些假设如何支撑语料库分析的方法,包括词典,语法,话语和注册。然后,我们将根据假设和方法来解释语料库分析的分析技术,包括频率,比例代表,分散,搭配,诱饵,诱饵,语料库比较和关键。最后,我们简要提及了一些高级分析方法,这些方法可以在分析师从上面的技术中收集初始发现后进行。在此过程中,我们提供了研究问题的示例,以展示这些想法如何与技术交流的联系以及进一步的联系。这种假设,方法和技术的概述构成了所有语料库分析出现的知识的基础。这也将是理解语料库分析研究设计的良好背景,这是第3至5章的主题。
frqwh [wv dqg ixqfwlrrqV dv zhoo dv wkh hphujhqfh ri qhz vsolqwhuv lq wkhlu irupdwlrq,q sdewlfxodu wkh sdshu dqdo \ dqdo \] dqg txdolwdwlyh ylhzsrlqwv 7kh dsssurdfk lv erwk gdwd gdwd gdwd gulyhq dqg frusxv edvhg)ru wkhh dqdo \ vlv wkh wkh wkh wkh vwxg rqoolqh yhuvlrrq ri wkh牛津英语dactari> 2('@ dv zhoo dv frusrud ri(当代美国英语的qjolvk l h corpus of当代英语>&2@ dqg web frusxv上的新闻 VHDUFK LQ WKH 2 ('DQG Fryhuv D Wlph Vsdq Zklfk Whvwlilhv Wr Wkh Fxuhqw Uhohydqfh Dqg Lqfuhdvlqj Lqflghqfh Ri Wkh Eohqlqj Surfhvv DV D Zrug IRUPDWLRRQ PHFDQLVP IRU wkh fuhdwlrq ri qhz zrug lq(qjolvk 7kh 2('lqghhgg vkrzv wkdw wkdw wkh qxpehu qhz hqwuulhv e \ eohqglqj grxe grxe grxehv lq lq lq lq l h i i i i ichulhv fuhd LQVDDQFHV LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ DQG LQ DV dv vkrzq lq)ljxuhb div div>
神经机器翻译模型再现其培训数据中存在的性别偏见,尤其是从性别中性语言(如英语)翻译成像西班牙语(如西班牙语)的语法性别语言时。本文通过将最先进的语言调整为性别平衡且合成生成的领域来调整性别偏见。我们的方法涉及使用以结构化提示为指导的大语言模型(LLM)的合成数据扩展,因为它对可扩展数据增强具有很大的好处。我们首先识别LLM和提示组合,该组合生成最准确,最少偏见的反事实句子。实验表明,当由更广泛的示例,逐步推理引导时,Llama 2-13B模型表现最好,并使用模型所需的相同语言来完成任务。使用此设置,我们增加了一个具有性别修饰句子的数据集,然后使用Lora来调整NLLB模型,Lora是一种参数效率的方法,仅训练模型参数的1.5%。我们的实验表明,在不影响翻译质量的情况下,性别偏差的统计学显着降低。较大的数据集结合了事实和合成反事实,并滤除低质量生成的示例有助于更有效地概括性别语言模式。这些结果具有更广泛的含义:首先,参数有效的微调可以以较小的计算成本减少性别偏见;其次,llm aigment的数据集可以匹配其他合成增强方法的有效性。
表2。有关反馈预测和客观评估的文献摘要。方法列是指算法:基于规则的(RB),条件随机字段(CRF),隐藏的马尔可夫模型(HMM),深神经网络(DNN),长期短期记忆,歧视专家的潜在混合物(LSTM)。反馈列是指研究的反馈,第一字母表示所预测的类型:仅通用(g)或特定(g/s);第二个字母指的是方式:口头(V)和/或手势(G)。特征列是指特征的类型:韵律(P),形态 - 句法(M),手势/视觉(G),自动回归(A)。误差范围(MOE)列指示用于评估地面真相开始反馈的窗口( - 表示丢失的信息)。分数列包含指标和相关得分:f-Score(f),Precision(p),召回(r)。
此版本是 TUAR v1.0.0 的更新,后者是一个部分注释的数据库。在 v1.0.0 中,使用了类似的五路系统以及额外的“空”标签。“空”标签涵盖未注释的任何内容,包括工件实例。在 v1.0.0 中,只有有限数量的工件被注释。在此更新版本中,工件的每个实例都经过注释;最终,这为用户提供了信心,即记录中未使用五个类别之一注释的任何部分都不包含工件。v2.0.0 中没有添加新文件、患者或会话。但是,数据已使用这些标准重新注释。文件总数保持不变,但工件事件的数量显着增加。注释完成并发布数据后,将提供有关语料库的完整统计数据。预计这将在 7 月初发生 - 就在 IEEE SPMB 提交截止日期之后。
摘要 本文介绍了第一个用所有模态和神经生理信号记录的自然会话语料库。五对二元组(10 名参与者,西班牙语母语人士)被记录了三次,分为三个会话(每个会话约 30 分钟),间隔 4 天。在每个会话期间,都会捕获音频和视频以及神经信号(使用 Emotiv-EPOC 的 EEG)和电生理信号(使用 Empatica-E4)。该资源在多个方面都是原创的。从技术上讲,它是第一个在自然对话情况下收集所有这些类型数据的资源。此外,在不同时期记录相同的二元组为新的纵向研究打开了大门,例如对话者阵营随时间的演变。本文在文献中定位了这种新型资源,介绍了实验设置并描述了丰富语料库的不同注释。
特定于领域的命名实体识别(NER)的意义,尤其是在法律和医学等领域,要求进行更深入的研究和实现。NER在医疗NLP中的作用如下:首先,NER有助于处理医学术语。医学ner使语言模型能够识别和处理医疗术语和行话。接下来,它有助于从非结构化数据中提取信息。实际上,Pearson等。(2021)已经执行了NER来重新移动或从非结构化医疗数据集中编码信息。此外,NER有助于敏感的患者特定信息的匿名性(Catelli等人,2021)。但是,医疗数据集不足是有问题的。这个问题变得更加具有挑战性,因为特定领域的NER任务需要广泛的标签,尤其是对于疾病,身体和治疗等特定实体类别。由于需要专家级知识,因此难以进一步放大。数据稀缺问题在诸如韩文等相对低资源的语言中会恶化。没有开源医疗数据集的韩国人证明了问题的严重性。为了解决数据稀缺问题,我们介绍了KBMC(韩国生物医生),这是第一个针对韩国的开源医疗数据集。我们利用chatgpt 1进行有效的句子创建。随后,我们注释了与生物格式下的疾病名称,身体部位和治疗相对应的实体。增加数据集并检查一般文本中的性能,