人类语言最引人注目的特征之一是它们的极端变化。更加惊人的是,在统治其形式和功能的强烈代表性和认知规律的明显变化背后的存在:语言普遍性。我们在这里讨论我们小组的一些最新工作,其中大规模,数据密集型计算建模技术用于解决有关语言规律性的基本语言问题。在单词顺序区域中,我们在此处报告工作,这些工作利用大量单语和平行语料库数据来开发名词短语(通用20)和一般结构最小化原则的内部结构的计算模型。在事件持续时间的领域,我们报告的工作利用了深厚的相似性和表面差异来开发真正的跨语言自然语言处理工具。
摘要 本文综合了教师的观点、学习者产出和学习者印象的分析、材料开发的想法以及总结性研究者的观察结果,这些观察源于在美国两个大学和成人留学环境中实施为期一学期(约 8 周的教学)的基于语料库和数据驱动的英语作为第二语言 (ESL) 教学。案例研究 1 调查了学习者和教师对语料库教学在培养专门为中国访问学者群体设计的学术写作技能方面的有效性的态度。案例研究 2 采用混合方法、探索性调查,研究使用支架式学生工作表指导不同熟练程度的学习者在一所位于美国的非营利性私人机构为期一学期的留学项目中使用语料库和语料库工具的情况。该工作表旨在定期将基于语料库的课程和数据纳入课堂教学或家庭作业活动。结果表明,教师们对将语料库工具纳入自己的语言课堂教学中可能带来的巨大而有希望的好处充满热情。通过具体明确的学习目标和使用指导,语料库工具可以成为课程期间和课程结束后适合学生的宝贵资源。
表2。有关反馈预测和客观评估的文献摘要。方法列是指算法:基于规则的(RB),条件随机字段(CRF),隐藏的马尔可夫模型(HMM),深神经网络(DNN),长期短期记忆,歧视专家的潜在混合物(LSTM)。反馈列是指研究的反馈,第一字母表示所预测的类型:仅通用(g)或特定(g/s);第二个字母指的是方式:口头(V)和/或手势(G)。特征列是指特征的类型:韵律(P),形态 - 句法(M),手势/视觉(G),自动回归(A)。误差范围(MOE)列指示用于评估地面真相开始反馈的窗口( - 表示丢失的信息)。分数列包含指标和相关得分:f-Score(f),Precision(p),召回(r)。
frqwh [wv dqg ixqfwlrrqV dv zhoo dv wkh hphujhqfh ri qhz vsolqwhuv lq wkhlu irupdwlrq,q sdewlfxodu wkh sdshu dqdo \ dqdo \] dqg txdolwdwlyh ylhzsrlqwv 7kh dsssurdfk lv erwk gdwd gdwd gdwd gulyhq dqg frusxv edvhg)ru wkhh dqdo \ vlv wkh wkh wkh wkh vwxg rqoolqh yhuvlrrq ri wkh牛津英语dactari> 2('@ dv zhoo dv frusrud ri(当代美国英语的qjolvk l h corpus of当代英语>&2@ dqg web frusxv上的新闻 VHDUFK LQ WKH 2 ('DQG Fryhuv D Wlph Vsdq Zklfk Whvwlilhv Wr Wkh Fxuhqw Uhohydqfh Dqg Lqfuhdvlqj Lqflghqfh Ri Wkh Eohqlqj Surfhvv DV D Zrug IRUPDWLRRQ PHFDQLVP IRU wkh fuhdwlrq ri qhz zrug lq(qjolvk 7kh 2('lqghhgg vkrzv wkdw wkdw wkh qxpehu qhz hqwuulhv e \ eohqglqj grxe grxe grxehv lq lq lq lq l h i i i i ichulhv fuhd LQVDDQFHV LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ LQ DQG LQ DV dv vkrzq lq)ljxuhb div div>
神经机器翻译模型再现其培训数据中存在的性别偏见,尤其是从性别中性语言(如英语)翻译成像西班牙语(如西班牙语)的语法性别语言时。本文通过将最先进的语言调整为性别平衡且合成生成的领域来调整性别偏见。我们的方法涉及使用以结构化提示为指导的大语言模型(LLM)的合成数据扩展,因为它对可扩展数据增强具有很大的好处。我们首先识别LLM和提示组合,该组合生成最准确,最少偏见的反事实句子。实验表明,当由更广泛的示例,逐步推理引导时,Llama 2-13B模型表现最好,并使用模型所需的相同语言来完成任务。使用此设置,我们增加了一个具有性别修饰句子的数据集,然后使用Lora来调整NLLB模型,Lora是一种参数效率的方法,仅训练模型参数的1.5%。我们的实验表明,在不影响翻译质量的情况下,性别偏差的统计学显着降低。较大的数据集结合了事实和合成反事实,并滤除低质量生成的示例有助于更有效地概括性别语言模式。这些结果具有更广泛的含义:首先,参数有效的微调可以以较小的计算成本减少性别偏见;其次,llm aigment的数据集可以匹配其他合成增强方法的有效性。
Daniel Danis,1,2 Michael J. Bamshad,3,4,5 Yasemines Bridges,6 Raymond Dalgleish,Peter J. Freeman,10 Adam S.L. Graves,1 Groza Tud,11,12,13 Peter Hansen,1 Julius O.B. Jacobsen,6 Adam Klockberk,14 Maaike Kusters,15,16 Markus S. Ladewig,1个后卫C.S. Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.Daniel Danis,1,2 Michael J. Bamshad,3,4,5 Yasemines Bridges,6 Raymond Dalgleish,Peter J. Freeman,10 Adam S.L.Graves,1 Groza Tud,11,12,13 Peter Hansen,1 Julius O.B.Jacobsen,6 Adam Klockberk,14 Maaike Kusters,15,16 Markus S. Ladewig,1个后卫C.S.Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.Reis,22,23 Catharina Schuetz,24,25,30 Damian Smedley,6 Zocche,27 Messes A.
1.2 挑战与影响 ARC 公开测试中,人类的平均表现准确率超过 60%[ 3 ]。相反,最有能力的模型利用 SOTA LLM[ 4 ] 也只能达到 50% 以下的准确率。考虑到大量的预训练数据,当前人工智能与人类之间的差距更加明显。对 ARC 竞赛解决方案的研究可以为我们对人类思维中的直觉和推理过程进行建模提供重要见解,促进新型人工智能范式的构建。同时,“[至少,解决 ARC-AGI 将产生一种新的编程范式[ 5 ]”,只需展示几个输入输出示例,就可以让没有编码经验的人进行程序合成。2 竞赛细节 数据集 ARC Prize 竞赛提供三个数据集:公共训练集、公共评估集和私有评估集。公共训练集和公共评估集均包含 400 个任务文件,而私有评估集包含 100 个任务文件。每个任务有 2 到 10 对(通常为 3 个)示例和 1 到 3 对(通常为 1 个)测试[2, 6]。指标 我们可以通过两种方法评估性能: 1)像素正确性 - 正确推断的像素占总数的百分比; 2)正确/不正确 - 推断的输出在形状、颜色和位置方面是否与任务的测试输出相匹配。竞赛使用第二种方法评估提交内容[6]。
利用富文本刺激的脑电图 (EEG) 数据集可以促进对大脑如何编码语义信息的理解,并有助于脑机接口 (BCI) 中的语义解码。针对包含中文语言刺激的 EEG 数据集稀缺的问题,我们提出了 ChineseEEG 数据集,这是一个高密度 EEG 数据集,并辅以同步眼动追踪记录。该数据集是在 10 名参与者默读两部著名小说中约 13 小时的中文文本时编制的。该数据集提供长时间的 EEG 记录,以及预处理的 EEG 传感器级数据和由预训练的自然语言处理 (NLP) 模型提取的阅读材料的语义嵌入。作为源自自然中文语言刺激的试点 EEG 数据集,ChineseEEG 可以显著支持神经科学、NLP 和语言学的研究。为中文语义解码建立了基准数据集,有助于脑机接口的发展,并有助于探索大型语言模型与人类认知过程的契合。它还可以帮助研究中文自然语言背景下的大脑语言处理机制。
摘要 随着企业致力于增强和扩大其产品组合,技术机会发现 (TOD) 越来越受到关注。为了理解新兴技术在创新中的作用,我们引入了一种新的英语和日语技术市场语料库,并对技术与市场之间的联系进行了全面的实证评估。我们的数据集包括从 USPTO 数据库中提取的英文专利和从日本专利局 (JPO) 提取的日文专利,以及每家股票市场公司的相关产品。我们比较了几种静态和上下文化的词嵌入方法来构建技术市场空间,并提出了一种基于微调 BERT 模型的有效方法,用于将技术与市场联系起来。
摘要围绕社交媒体平台上气候变化的话语已成为理解公众情绪,观点和参与这个关键全球问题的重要途径。公开可用的数据集的不可用,再加上社交媒体平台上对气候话语的多范围分析,强调了这一领域进一步发展的必要性。为了解决这一差距,在本文中,我们对Twitter上气候变化话语的复杂领域进行了广泛的探索,利用了一个精心注释的Climaconvo数据集,其中包含15,309条推文。我们的注释包括丰富的范围,包括相关性,立场,仇恨言论,仇恨和幽默的方向,提供对话语动态的细微理解。我们解决了剖析在线气候讨论并详细介绍我们全面注释方法的固有的挑战。除了注释外,我们还对六个任务进行了各种算法的基准评估:相关检测,立场检测,仇恨言论识别,方向和目标以及幽默分析。该评估增强了我们对话语中情感波动和语言微妙的理解。我们的分析扩展到探索性数据检查,推出推文分布模式,立场流行和仇恨言论趋势。采用复杂的主题建模技术揭示了主题簇的基础,从而提供了对话语中编织的各种叙事线程的见解。这些发现为寻求浏览气候变化讨论的复杂性的研究人员,政策制定者和沟通者提供了宝贵的资源。本文的数据集和资源可在https://github.com/shucoll/climaconvo上获得。