本文涉及术语学中的“异常”语言功能。如果更一般的作品会引起与标准不同的变化(根据语域、地点、时间),那么“异常”一词已被各种作者用来描述不符合非专业情况下预期的语言功能(元素的添加或删除、参数的变化、某些类别的过度使用等)(例如,参见下面引用的 Lehrberger (1986) 和 Pearson (1998))。即使不使用“异常”一词,也可以从本质上描述的角度识别专业语言的特殊性。在本文中,我们对这种“异常”现象感兴趣,目的是进行解释。我们想表明的是,这些看似异常的功能实际上是由于情况的特殊性造成的。语言描述(尤其是有关词汇的描述)通常是针对中性情况进行的,即没有指定任何特定的上下文。然而,专业语言的一个固有特征是,它们从一开始就以定义话语社区的交流环境为特征。在大多数情况下,异常的语言功能可以通过在专业情况下建立话语社区的共同利益来解释。这种共同利益以专家的投入为前提,体现在特定的语言功能中。因此,本文唤起了经常被提及来解释行话使用的社会语言学方面,它建立了社区,但也可以孤立社区。根据语料库研究的结果,本文描述了语言功能:冗长(添加修饰语)、经济(删除介词和/或限定词),这些功能可以通过概念的精细度来解释
复杂的大语言模型的出现,例如Chatgpt和其他AI驱动的平台,导致了近距离模仿人类写作的文本的产生,这使得识别它是人类生成还是AI生成的内容非常具有挑战性。这对内容验证,学术完整性和检测误导性信息构成了重大挑战。为了解决这些问题,我们开发了一个分类系统,以使用多样化的HC3英语数据集区分人体编写的文本和a-ager of a-aged文本。此数据集利用语言肛门和结构特征,包括一部分语音标签,词汇大小,单词密度,词密度,具有被动的语音用法以及可读性指标,例如验收的读数,验阅读便捷,引起式和爆发性。我们采用了基于变压器和深入学习的模型来完成策略任务,例如CNN_BILSTM,RNN,BERT,GPT-2和ROBERTA。其中,罗伯塔模型表现出了优越的表现,其出色的精度为99.73。这些结果表明了尖端深度学习方法如何在数字领域中提出信息完整性。
语言在较高的示意图和低级词汇项目上都是可以预测的。关于词汇水平上的可预测性,搭配是频繁的单词共同出现,通常以高缔合强度为特征。到目前为止,心理学和神经语言学研究主要利用高度人工实验范式来研究搭配,通过关注单个单词或孤立的句子的处理。相比之下,我们在这里分析了持续语音刺激期间记录的EEG脑反应,即音频书籍。我们发现,N400对搭配的响应与非集合的响应显着不同,而效果在皮质区域(前/后验)和横向性(左/右)方面有所不同。我们的结果与使用连续语音的研究一致,它们主要与使用人工范式和刺激的研究相矛盾。据我们所知,这是使用连续语音刺激的关于搭配的首次神经语言研究。据我们所知,这是使用连续语音刺激的关于搭配的首次神经语言研究。
摘要 语音处理是高度渐进的。人们普遍认为,人类听众不断使用语言语境来预测即将出现的概念、单词和音素。然而,先前的证据支持两种看似矛盾的模型,即预测语境如何与自下而上的感官输入相结合:经典的心理语言学范式表明这是一个两阶段的过程,其中声学输入最初导致局部、与语境无关的表征,然后迅速与语境约束相结合。这与大脑构建单一连贯、统一的输入解释的观点形成对比,大脑完全整合了跨表征层次的可用信息,因此使用语境约束来调节甚至最早的感官表征。为了区分这些假设,我们测试了对连续叙述语音的脑磁图反应,以寻找局部和统一预测模型的特征。结果证明听众同时使用这两种类型的模型。两个局部上下文模型独特地预测了早期神经反应的某些部分,一个基于亚词汇音素序列,另一个仅基于当前单词中的音素;同时,即使是对音素的早期反应也反映了一个统一的模型,该模型结合了句子级约束来预测即将到来的音素。神经源定位将不同预测模型的解剖起源置于双侧颞上叶的非相同部分,右半球显示出对更多局部模型的相对偏好。这些结果表明,语音处理同时招募了局部和统一的预测模型,从而调和了先前不同的发现。并行模型可能会使感知系统更加健壮,促进意外输入的处理,并在语言习得中发挥作用。
印度尼西亚马朗 Saidah Ulfa 州立大学,saida.ulfa.fip@um.ac.id 本研究旨在确定全脑教学 (WBT) 模式和视觉素养对 5-6 岁学龄前儿童运动和语言能力的影响。本研究采用非等效对照组设计的准实验。在本研究中,有一个采用 WBT 处理的实验班和一个采用小组模式处理的对照班。应用的数据分析技术是多元方差分析 (MANOVA)。本研究获得一些发现 (1) 使用 WBT 和小组模式的学生之间存在运动和语言能力的影响,(2) 视觉素养高和视觉素养低的儿童的运动和语言技能存在差异,(3) WBT 和视觉素养对儿童的运动和语言能力存在相互作用。
歌曲在人脑中如何处理?在歌曲中,音乐和歌词在音乐语言的协同作用中紧密绑定,以传达含义和情感,而不是语言内容,从而提出了有关如何代表两个组成部分并将其整合到有凝聚力的感知整体中的问题。先前的研究指出了对音乐,语音和歌曲敏感的人类皮质的领域,它们既可以找到共享和专业网站。然而,听歌曲时的音乐和歌词处理之间的互动仍然很糟糕。为了解决这个问题,我们探究了具有脑电图的特定于音乐和语音的神经预测机制。当向听众提供歌曲或相应的嗡嗡声(无语言)旋律时,比较了旋律预测的编码。同样,在歌曲和相应的口语(无旋律)歌词中研究了语音预测的编码。我们发现,歌曲中音乐和言语的同意改变了它们的预测信号的产生和处理,从而改变了它们的神经编码。此外,我们在旋律和音素期望的神经编码中找到了一个权衡,其平衡取决于谁在听(反映听众的偏爱的内部驱动力,例如音乐训练)以及歌曲的创作和表演方式(外部驱动程序(外部驱动力)(反映了歌词和音乐的出色和音乐))。总的来说,我们的结果表明,歌曲涉及并行预测过程,以竞争共享处理资源的使用。
紧急沟通领域调查了从事需要交流的合作任务的自主代理之间共同的语言惯例的出现。通过自组织产生的惯例更加稳健,灵活和适应性,并且消除了手工制作协议的需求。 在我的博士研究中,我研究了人造代理如何在基于参考的任务中共同建设这种语言结构的惯例。 使用语言游戏实验范式解决了此问题,该范式旨在模拟人类语言出现和演变的基础过程。 到目前为止,我的主要贡献引入了在紧急环境中针对语言游戏范式的新方法。 使用该方法,代理可以通过自我组织建立一种新兴的语言,使他们能够使用单词话语来指代环境中的任意实体。 第一次,该方法直接适用于任何描述实体连续值特征的数据集。 我的研究中的下一阶段是通过语法结构的出现从单词话语转变为多词的话语。通过自组织产生的惯例更加稳健,灵活和适应性,并且消除了手工制作协议的需求。在我的博士研究中,我研究了人造代理如何在基于参考的任务中共同建设这种语言结构的惯例。使用语言游戏实验范式解决了此问题,该范式旨在模拟人类语言出现和演变的基础过程。到目前为止,我的主要贡献引入了在紧急环境中针对语言游戏范式的新方法。使用该方法,代理可以通过自我组织建立一种新兴的语言,使他们能够使用单词话语来指代环境中的任意实体。第一次,该方法直接适用于任何描述实体连续值特征的数据集。我的研究中的下一阶段是通过语法结构的出现从单词话语转变为多词的话语。
抽象有效的沟通取决于在不同上下文中对单词含义的相互理解。大语言模型学到的嵌入空间可以作为人类用来传达思想的共享,上下文丰富的含义的明确模型。,我们在五对癫痫患者中自发,面对面的对话中使用电皮质学记录了脑活动。我们证明了语言嵌入空间可以捕获说话者和听众之间单词神经对准的语言内容。语言内容在单词发音之前出现在说话者的大脑中,并且在单词发音后,听众的大脑中相同的语言内容在听众的大脑中迅速重新出现。这些发现建立了一个计算框架,以研究人类大脑如何在现实世界中将他们的思想传播到彼此之间。
利用富文本刺激的脑电图 (EEG) 数据集可以促进对大脑如何编码语义信息的理解,并有助于脑机接口 (BCI) 中的语义解码。针对包含中文语言刺激的 EEG 数据集稀缺的问题,我们提出了 ChineseEEG 数据集,这是一个高密度 EEG 数据集,并辅以同步眼动追踪记录。该数据集是在 10 名参与者默读两部著名小说中约 13 小时的中文文本时编制的。该数据集提供长时间的 EEG 记录,以及预处理的 EEG 传感器级数据和由预训练的自然语言处理 (NLP) 模型提取的阅读材料的语义嵌入。作为源自自然中文语言刺激的试点 EEG 数据集,ChineseEEG 可以显著支持神经科学、NLP 和语言学的研究。为中文语义解码建立了基准数据集,有助于脑机接口的发展,并有助于探索大型语言模型与人类认知过程的契合。它还可以帮助研究中文自然语言背景下的大脑语言处理机制。
按照掩蔽语言建模 (MLM) 目标进行训练的多语言预训练语言模型 (multiPLM) 通常用于双语文本挖掘等跨语言任务。然而,这些模型的性能对于低资源语言 (LRL) 仍然不是最优的。为了改进给定 multiPLM 的语言表示,可以进一步对其进行预训练。这称为持续预训练。先前的研究表明,使用 MLM 进行持续预训练,随后使用翻译语言建模 (TLM) 进行预训练可以改进 multiPLM 的跨语言表示。然而,在掩蔽期间,MLM 和 TLM 都会给予输入序列中的所有标记相同的权重,而不管标记的语言属性如何。在本文中,我们引入了一种新颖的掩蔽策略,即语言实体掩蔽 (LEM),用于持续预训练步骤,以进一步改进现有 multiPLM 的跨语言表示。与 MLM 和 TLM 相比,LEM 将掩码限制在语言实体类型名词、动词和命名实体上,这些实体在句子中占据更重要的地位。其次,我们将掩码限制在语言实体范围内的单个标记上,从而保留更多上下文,而在 MLM 和 TLM 中,标记是随机掩码的。我们使用三个下游任务评估 LEM 的有效性,即双语挖掘、并行数据管理和代码混合情感分析,使用三种低资源语言对英语-僧伽罗语、英语-泰米尔语和僧伽罗语-泰米尔语。实验结果表明,在所有三个任务中,使用 LEM 持续预训练的多 PLM 优于使用 MLM+TLM 持续预训练的多 PLM。
