复合词加工中的透明度和中心性:一项词汇决策研究 SARAH STEINKE 和 WEIYI ZHAI 1 摘要 在本研究中,我们调查了词汇透明度和中心性对英语复合词加工的影响。 先前涉及复合词语义启动的研究表明,至少部分透明的复合词的单个成分在加工过程中被激活(例如 Jarema、Busson、Nikolova、Tsapkini 和 Libben,1999 年;Sandra,1990 年)。我们假设,在词汇决策任务中,当受试者被与一个成分相关的词(尤其是透明或中心成分)启动时,他们对复合词的平均反应时间会更快。我们的结果与先前的研究基本一致,即与相关词配对的透明复合词的反应时间比与不相关的词对配对的反应时间更快,但透明复合词有一些例外。我们的结果为复合词加工和基于词素的词汇组织过程中的成分激活提供了支持。关键词:复合词、扩散激活、词汇决策任务 (LDT)、透明度、中心性 1.0 简介 语言学家和认知心理学家对于单个单词在心理词典中是如何组织和访问的有很多悬而未决的问题。 词汇条目可能对应于单个单词。或者,词汇表征可以对应于词素,多个词汇条目可以组合成一个单词。这意味着多词素词,如 surprise,是由两个条目组成的,例如 surprise 和 -ed 。按词素组织词汇条目将减少词典中必须包含的总表征数量,同时还能表示简单词(如 surprise)和形态复杂词(如 surprise )之间的关系。然而,复合词在心理词典中是如何表征的尚不清楚。复合词,例如 oatmeal ,由两个词素组成,说话者认为它们是独立的词。复合词中的每个词素称为成分,应具有独立于复合词的单独词汇条目。但是,复合词作为一个整体可能仅由其成分(基于词素的表示)或单独的词汇条目(基于单词的表示)表示。更好地理解复合词的心理表征将提供有关词汇结构的更多信息,并可能提供有关我们在处理语言时访问词汇条目的方式的信息。为了探索这个问题,我们使用复合词进行了词汇决策实验。本研究的结果为某些类型的复合词基于词素的词汇组织提供了支持。我们在本文中探讨了这个问题,其结构如下:第 2 节讨论了以前的研究。第 3 节解释了我们实验中使用的方法。第 4 节包含实验结果,最后在第 5 节中,我们讨论这些结果以及我们研究的含义和局限性。
要揭示人类大脑如何编码和约束词语,必须识别形态语义加工背后的复杂神经认知机制。形态加工涉及对给定词语的内部形态信息和结构的心理操作,整个过程总是与语义分析交织在一起(Chung, Tong, Liu, McBride-Chang, & Meng, 2010 ; Ip et al., 2017)。迄今为止,尽管形态学在字母语言处理中的作用已得到广泛探索(例如,Bölte、Jansma、Zilverstand和Zwitserlood,2009;Carrasco-Ortiz和Frenck-Mestre,2014;Leminen、Smolka、Dunabeitia和Pliatsikas,2019;Schremm、Nov en、Horne和Roll,2019),但尚不清楚中文形态学在阅读过程中如何表现。由于超过 70% 的中文词是由两个或三个构成字/词素复合而成的,因此书面中文通常被描述为形态音节(DeFrancis,1989),其中每个字对应一个音节/词素。因此,亚词汇层次的构成词素可能在介导词汇获取和整词加工中发挥重要作用。最近,越来越多的研究证明了汉语复合词阅读中词素效应和亚词汇加工的心理现实(例如,Huang, Lee, Huang, & Chou, 2011; Huang, Lee, Tsai, & Tzeng, 2011; Zhao, Wu, Li, & Guo, 2017 ; Gao, Wang, Zhao, & Yuan, 2021 )。然而,在汉语词汇阅读过程中,人类大脑如何编码形态约束的时空特征仍不清楚。有趣的是,有人将并列复合词(如“花草”、/faa1 cou2/、flower 和 grass、plant)嵌入视觉启动词汇决策任务中,研究了汉语形态结构加工的时间进程和时间特征(Chung et al.,2010)。事件相关电位(ERP)结果显示,纯形态结构效应仅在220 至300 毫秒的时间窗内检测到(额叶P250/P2效应),而经典的N400语义启动效应(表现在中央顶叶电极点)能够指示语义记忆网络的激活,这表明形态结构可能在早期复合词阅读过程中自动调节语义加工(Pylkköanen & Marantz,2003;Pylkköanen、Feintuch、Hopkins & Marantz,2004)。另一项研究也表明,具有相同形态结构的词对比具有不同结构的词对引起的 P2a 波幅更大(在额叶部位为 150 至 180 毫秒)(顾,余,马,2012)。这些发现表明,在汉语复合词阅读的早期阶段可能存在形态结构加工成分,并且独立于后期的词汇语义加工。然而,与早期加工理论(如 P250/P2、P2a)相反,最近的一系列研究表明,汉语形态加工在词汇后层面上暗示着有意识的过程(Allen、Badecker 和 Osterhout,2003;Newman、Ullman、Pancheva、Waligura 和 Neville,2007)。例如,研究发现,形态生产力较高的词(即从属结构)会引发明显更大的 P600
7)元宇宙是“meta”和“universe”的复合词,前者意为虚拟、抽象,后者意为现实世界,指三维虚拟世界。 8)奇点是指人工人工智能发展到超越人类智能的程度,雷·库兹韦尔预测这个时间点是2045年。9)弱人工智能应用于国际象棋、围棋等特定领域。弱人工智能是指利用出色的计算能力帮助人类完成工作的人工智能,包括谷歌DeepMind 的 AlphaGo 和 IBM 的 Watson。10)强人工智能比人类的智力水平更高,可以独立思考问题并全面解决问题。它指的是以人的数量来判断的人工智能,例如电影《钢铁侠》中的贾维斯伙计。
• 定义:名称识别和枚举 (NER) 是在文本中定位和分类特定实体的过程,包括个人、地点、企业、日期等的名称。• 印度语言中的重要性:NER 对于问答、信息提取和其他语言理解等活动至关重要。由于名称和实体种类繁多、音译问题和不同的单词边界,识别印度语言中的命名实体可能很困难。• 困难:一个主要困难是印度语言中没有用于 NER 的大量标记数据集,特别是对于资源匮乏的语言。由于复杂的名词短语和复合词在印度语言中很常见,NER 变得更加复杂。•方法:条件随机场 (CRF)、深度学习和迁移学习是研究人员用来为印度语言创建 NER 模型的一些方法。Indo NLP 项目等计划的目标是开发印度语言的 NER 模型和数据集。
我们从功能角度开始研究,认为语言反映了交流和认知效率(例如,Rosch,1978;Zipf,1949)。现有的语言学研究已经将这一视角扩展到词汇形成(Dressler,2005;ˇ Stekauer,2005),即研究词汇形成新词的模式(Marchand,1960)。这种构词功能理论得到了历史上已证实的词义扩展案例(Y. Xu, Malt, & Srinivasan, 2017; Ramiro, Srinivasan, Malt, & Xu, 2018)、常规化复合词(A. Xu, Kemp, Frermann, & Xu, 2022)和外来词(Monaghan & Roberts, 2019)的实证研究的支持,但这些不同的构词策略通常是孤立地进行研究的。我们扩展了这些先前的研究,建议
结果:我们讨论了这样一个发现:与包含 TP 和 DP 的完整句子相比,层次结构较少的小句在左侧布罗卡区 (BA) 44 和右侧基底神经节中的激活度降低,这与以下假设相一致:更近、更复杂的句法需要布罗卡-基底神经节网络中更多的连接,该网络的神经元密度在最近的进化中显著增强,暗示 FOXP2 和其他基因发生了突变。我们还讨论了这样一个发现:祖先动词-名词复合词的处理(通常用于(贬义)命名和昵称)在右侧梭状回区域 (BA 37) 中的激活度增强,该区域与隐喻性和可想象性的处理有关,也与命名和面部识别有关,这揭示了一个有趣的可能性,即人类面部识别能力的增强是由早期出现的简单命名句法策略促成的。
术语隐喻是术语化的结果,术语化是常用词语获得特定于某一科学领域的特殊含义的过程。特定学科概念的隐喻表达机制基于某些关联(形式、形状、功能、结构等)。术语隐喻是专业词汇的重要组成部分,是帮助专家和非专业人士提名和理解特定学科概念、对象和过程的手段。本文研究了两个特定学科术语领域的隐喻术语——大地测量和地质。本研究的主要目的是分析从大地测量和地质词典和相关参考文献中提取的具有隐喻特征的术语单元,以确定它们的结构和语义特性及其生产力。本文从语义、结构和形态三个角度对所研究的隐喻进行了研究。本文采用定量分析和计算方法,确定了术语的不同语义和结构模型的生产力。研究发现,人类学隐喻术语在测地学和地质学术语中占主导地位。研究词汇包括单词干术语、复合词和具有隐喻特征的术语词组合。后者占主导地位。数据分析结果表明,两个术语系统中名词模型的数量都超过后者。
术语隐喻是术语化的结果,术语化是常用词语获得特定于某一科学领域的特殊含义的过程。特定学科概念的隐喻表达机制基于某些关联(形式、形状、功能、结构等)。术语隐喻是专业词汇的重要组成部分,是帮助专家和非专业人士提名和理解特定学科概念、对象和过程的手段。本文研究了两个特定学科术语领域的隐喻术语——大地测量和地质。本研究的主要目的是分析从大地测量和地质词典和相关参考文献中提取的具有隐喻特征的术语单元,以确定它们的结构和语义特性及其生产力。本文从语义、结构和形态三个角度对所研究的隐喻进行了研究。本文采用定量分析和计算方法,确定了术语的不同语义和结构模型的生产力。研究发现,人类学隐喻术语在测地学和地质学术语中占主导地位。研究词汇包括单词干术语、复合词和具有隐喻特征的术语词组合。后者占主导地位。数据分析结果表明,两个术语系统中名词模型的数量都超过后者。
在过去的十年中,在数字化梵语文本和推进语言的计算分析方面取得了重大进展。然而,为促进NLP的努力促进了诸如语义类比预测,命名实体识别和其他人的复杂语义下游任务,而其他人仍然有限。此差距主要是由于缺乏建立在大规模梵文文本数据上的坚固,预先训练的梵文模型,因为这需要大量的计算资源和数据准备。在本文中,我们介绍了Sansgpt,这是一种生成的预培训模型,已在大量的梵文文本上进行了培训,旨在促进下游NLP任务的微调和开发。我们的目标是该模型是推进梵语NLP研究的催化剂。此外,我们开发了一种专门针对梵语文本优化的自定义令牌,从而实现了复合词的有效令牌化,并使其更适合生成任务。我们的数据收集和清洁过程涵盖了各种各样的可用梵文文献,以确保培训的全面代表。我们通过对语义类比预测和明喻元素提取进行微调来进一步证明该模型的疗效,分别达到了大约95.8%和92.8%的令人印象深刻的精度。