认知负荷的自动识别是开发自适应系统的重要一步,该系统能够为用户提供动态支持,以便将所经历的负荷保持在最佳范围内,从而实现最大生产力。语音包含大量信息,已被确定为衡量用户认知负荷的潜在方式。本论文的重点是语音特征对自动认知负荷评估的有效性,特别关注该研究领域的新视角。引入了一个名为 CoLoSS 的新认知负荷数据库,其中包含执行学习任务的用户的语音记录。该数据收集与现有的认知负荷数据库形成对比,因为尚未采用学习任务,并且除了迄今为止考虑的离散负荷水平外,它还提供连续的数字标签。CoLoSS 语料库与 CLSE 数据库(其中采用了 Stroop 测试的两个变体和一个阅读广度任务)一起构成了评估的基础。研究了不同类别的各种声学特征(包括韵律、语音质量和频谱)的相关性。此外,还引入了 Teager 能量参数(该参数在压力检测中已被证明非常成功)进行认知负荷评估,并展示了如何使用自动语音识别技术来提取用户认知负荷的潜在指标。作为进一步的贡献,提出了三个手工制作的特征集。通过使用为三类分类(低、中、高认知负荷)设计的独立于说话者的系统进行识别实验,系统地评估了提取的特征的适用性。测试了特征组合、特征选择过滤器、特征规范化方法和模型参数方面的各种配置。为了证明所提出的特征集的泛化能力,进行了跨语料库实验。此外,介绍了一种基于语音的认知负荷建模的新方法,其中负荷表示为连续量,因此其预测可以视为回归问题。在 CoLoSS 语料库上对回归算法的评估揭示了使用自动特征子集选择的优势。
引言 人类婴儿习得语言非常容易。这一技能可能很早就开始了,甚至可能在出生前就已开始(1-5),因为听觉在妊娠 24-28 周时就已开始发挥作用(6)。宫内环境充当低通滤波器,衰减 600Hz 以上的频率(2,7)。因此,在经过低通滤波的产前语音信号中,单个语音会被抑制,但韵律,即语音的旋律和节奏,则会保留下来。胎儿已从这种产前经验中学习(5,8):新生儿更喜欢母亲的声音,而不是其他女性的声音(1),并且更喜欢母亲在怀孕期间所说的语言,而不是其他语言(3)。出生后,婴儿开始接触全波段语音信号,到出生后第一年末(9-13 岁)他们就会对母语声音模式的细节感到熟悉。然而,哪些神经机制使发育中的大脑能够从语言经验中学习,这一点仍不清楚。在此,我们要问,语音刺激是否会诱发能够支持新生儿大脑学习的动态变化,以及这种调节是否特定于产前听到的语言。我们使用脑电图 (EEG) 在 10 个额叶、颞叶和中央电极部位测量了产前接触法语的新生儿(n = 49,年龄:2.39 天;范围为 1 至 5 天;19 名女孩)的神经活动,当时婴儿正在医院的摇篮里休息(图 1,A 和 B)。我们首先测量了 3 分钟的静息状态活动(沉默 1)。然后,让婴儿听三种不同语言的讲话——法语、西班牙语和英语,每段 7 分钟。最后,再次测量静息状态活动 3 分钟(沉默 2;图 1C)。语言的顺序是伪随机的,并在参与者之间保持平衡,因此 17 名婴儿听到法语,18 名婴儿听到英语,14 名婴儿听到西班牙语作为沉默 2 之前的最后一段。除了产前听到的法语之外,我们还选择了西班牙语和英语作为不熟悉的语言来测试产前经验的影响。西班牙语在节奏上与法语相似,而英语则不同(14)。从行为上讲,新生儿可以区分节奏不同的语言,即使
摘要 文化产物,例如舞蹈和音乐,具有时间特性,广义上称为节奏。当个体同步他们的动作时,出现的时间结构提供了一种团结感和共同命运,即使个体可以很容易地调入和调出这个共享的时间空间。在本章中,我们简明扼要地讨论了导致大脑节律和节律行为出现的内生性和外生性因素,以及它们的相互作用如何促成人类复杂的表达形式。自愿与外部节奏耦合和分离的能力在我们的环境(外部驱动)和我们的内部状态(内部驱动)之间产生了潜在的紧张关系,这种紧张关系可以以惊喜的形式被利用来获得艺术效益。 简介 节奏无处不在:在行星的运动中,它决定了我们白天/夜晚的节奏,在人类喜欢阅读的韵律中,在他们产生的音乐和舞蹈中。在生命的每个尺度上,从分子到鸟群,节奏标记时间并为信息流提供指标。在乔治·利盖蒂 (György Ligeti) 的《交响诗》(Poème Symphonique) (1962) 中,一百个节拍器尽可能同时启动,每个节拍器都设置为不同的节奏,标记几分钟的时间。这首交响诗可以被认为是大脑节律的理想化隐喻:数百个神经群可以同时、以相同或不同的频率、同相或异相地有节奏地活跃。大脑功能内生的多个时间指标可能用于信息的编码、分割、调节和传输。本章从广泛的神经科学角度介绍了节奏和节奏处理的心理和神经约束,将各个专业领域的细微差别留给本书的其他章节。我们首先讨论节奏在人类作品中的重要性和定义,然后转向神经振荡的作用,说明节奏在预测、注意和预期方面的具体作用——这些概念是艺术作品的核心。最后,我们强调了生物学和心理学固有的矛盾,即外生时间性与内生身体节律之间的交织,正是这些交织使得个体的生物钟具有相对性。 1 节律 在本章中,节律被定义为信号(例如声音、身体运动或神经动态)在广泛时间尺度上的周期性模式。时间模式不必严格等时才符合节律的条件;事实上,这些节律可能非常复杂,例如人类容易产生的音乐、舞蹈或语音中的层次嵌套结构。在本章中,我们的案例研究主要是准等时单流
摘要 文化产物,例如舞蹈和音乐,具有时间特性,广义上称为节奏。当个体同步他们的动作时,出现的时间结构提供了一种团结感和共同命运,即使个体可以很容易地调入和调出这个共享的时间空间。在本章中,我们简明扼要地讨论了导致大脑节律和节律行为出现的内生性和外生性因素,以及它们的相互作用如何促成人类复杂的表达形式。自愿与外部节奏耦合和分离的能力在我们的环境(外部驱动)和我们的内部状态(内部驱动)之间产生了潜在的紧张关系,这种紧张关系可以以惊喜的形式被利用来获得艺术效益。 简介 节奏无处不在:在行星的运动中,它决定了我们白天/夜晚的节奏,在人类喜欢阅读的韵律中,在他们产生的音乐和舞蹈中。在生命的每个尺度上,从分子到鸟群,节奏标记时间并为信息流提供指标。在乔治·利盖蒂 (György Ligeti) 的《交响诗》(Poème Symphonique) (1962) 中,一百个节拍器尽可能同时启动,每个节拍器都设置为不同的节奏,标记几分钟的时间。这首交响诗可以被认为是大脑节律的理想化隐喻:数百个神经群可以同时、以相同或不同的频率、同相或异相地有节奏地活跃。大脑功能内生的多个时间指标可能用于信息的编码、分割、调节和传输。本章从广泛的神经科学角度介绍了节奏和节奏处理的心理和神经约束,将各个专业领域的细微差别留给本书的其他章节。我们首先讨论节奏在人类作品中的重要性和定义,然后转向神经振荡的作用,说明节奏在预测、注意和预期方面的具体作用——这些概念是艺术作品的核心。最后,我们强调了生物学和心理学固有的矛盾,即外生时间性与内生身体节律之间的交织,正是这些交织使得个体的生物钟具有相对性。 1 节律 在本章中,节律被定义为信号(例如声音、身体运动或神经动态)在广泛时间尺度上的周期性模式。时间模式不必严格等时才符合节律的条件;事实上,这些节律可能非常复杂,例如人类容易产生的音乐、舞蹈或语音中的层次嵌套结构。在本章中,我们的案例研究主要是准等时单流
感知涉及通过处理连续的多模态感官信息流来理解我们周围的世界。在此过程中,人类大脑会产生电活动,这些电活动可以在各种场景和任务中测量,以阐明连续感知的神经基础。这项研究表明,大脑电活动与感官输入的特定属性同步,这种现象称为神经追踪(Obleser 和 Kayser,2019 年)。最近的研究表明,侵入式和非侵入式电生理记录都可以稳健地检测到神经追踪(Lalor 等人,2006 年;Ding 和 Simon,2012 年;Gross 等人,2013 年;Zion Golumbic 等人,2013 年),为研究越来越复杂的涉及连续现实刺激(如语音和音乐)的任务中的感知提供了客观的测量方法。听觉感知的情况尤为引人注目。神经信号能够可靠地跟踪连续声音的幅度包络(包络跟踪)(Lalor 等人,2009 年)的发现引领了新的研究方向。首先,包络跟踪测量已使一系列关于现实多说话者场景中的听觉注意力的研究成为可能(例如,参见 COCOHA 项目,H2020.2.1.1.4。ID = 644732),表明用侵入性皮层脑电图 (ECoG) 以及非侵入性脑电图和脑磁图 (EEG/MEG) 记录的信号以不同的方式跟踪有人注意和无人注意的声音(Ding 和 Simon,2012 年;Zion Golumbic 等人,2013 年;O'Sullivan 等人,2014 年、2019 年)。这一开创性的发现为脑机接口研究开辟了一个全新的方向,有望用于脑控助听器等新型设备(Eyndhoven 等人,2017 年;O'Sullivan 等人,2017 年;Ceolini 等人,2020 年)。一项平行的研究表明,可以同时跟踪同一刺激的多个属性(O'Sullivan 等人,2016 年;Di Liberto 等人,2021a 年;Gillis 等人,2021 年)。在语音聆听的背景下,皮质信号被证明可以逐步跟踪语音信号的高级属性,从声学特征(Lalor 和 Foxe,2010;Ding 等人,2014)到语言单位(Di Liberto 等人,2015、2018b;Brodbeck 等人,2018;Lesenfants 等人,2019)、韵律(Myers 等人,2019;Teoh 等人,2019)和语义内容(Broderick 等人,2018、2021;Weissbart 等人,2020)。因此,神经跟踪测量可以通过为我们提供指向不同处理阶段的不同客观指标,为语音的分层编码提供丰富的视图。
摘要:本报告提出了计算机辅助语言学习 (CALL) 领域的最新研究成果。错误发音检测是计算机辅助发音训练 (CAPT) 系统的核心组件之一,而 CAPT 是 CALL 的一个子集。自动发音错误检测研究始于 20 世纪 90 年代,但由于计算能力的提高以及用于录制发音分析所需的语音的移动设备的普及,成熟的 CAPT 的开发在过去十年才得以加速。检测发音错误是一个很难解决的问题,因为没有正确和错误发音的正式定义。因此,通常会检测到韵律和音素错误,例如音素替换、插入和删除。此外,人们一致认为,学习发音应该注重说话者的清晰度,而不是听起来像 L1 英语说话者。最初,使用高斯混合模型-隐马尔可夫模型和深度神经网络-隐马尔可夫模型方法,基于后验似然(称为发音良好性)开发方法。与最近提出的基于 ASR 的端到端错误发音检测系统相比,这些系统实施起来很复杂。本研究的目的是使用连接主义时间分类 (CTC) 和基于注意的序列解码器创建端到端 (E2E) 模型。最近,E2E 模型在错误发音检测准确性方面显示出显着的提高。本研究将对基线模型 CNN-RNN-CTC、具有基于字符序列的注意解码器的 CNN-RNN-CTC 以及具有基于音素的解码器系统的 CNN-RNN-CTC 进行比较。这项研究将帮助我们决定一种更好的方法来开发一个有效的发音错误检测系统。关键词:CNN-RNN-CTC、语音处理、发音错误检测 简介:建立人与机器[Baranwal et al, ]或人与人或机器与机器[singh et al, 2020, singh et al, 2019]手势[Baranwal et al, 2017, Singh et al, 2018]、语音、面部表情[singh et al, 2018]等之间的通信。是重要的沟通媒介,其中语音(Baranwal et al, 2014, Baranwal et al, 2014)是人类交流最自然的形式。随着全球化的发展,外语学习市场大幅增长,其中之一就是英语发音学习。发音教学本质上是学生和老师之间的一对一互动,这对许多学生来说是难以承受的。因此,自动发音教学已成为一个热门的研究领域。自动识别发音错误和测量发音的研究工作始于 20 世纪 90 年代,从 90 年代末到 21 世纪初发生了一系列事件。2000 年初 CAPT 的商业化被证明存在问题,因此开发活动放缓。大约十三年前,随着计算能力的提高、智能化,人们的兴趣再次开始
语言的产前经验塑造大脑Benedetta Mariani 1,2,Giorgio Nicoletti 1,2,3,Giacomo Barzon 1,2,MaríaClemenciaortízBarajas4,Mohinish Shukla 2,5 2,5,RamónGuevara1,2,5,Samir Simon Sueis 1,00 kein samir simon Sueis 1,2,22,2,2,2,2,2,2,2,2,2,2,2 Physics and Astronomy, University of Padua, Italy 2 Padova Neuroscience Center, University of Padua, Italy 3 Department of Mathematics, University of Padua, Italy 4 Integrative Neuroscience and Cognition Center, CNRS and Université Paris Cité, Paris, France 5 Department of Developmental and Social Psychology, University of Padua, Italy Abstract Human infants acquire language with striking ease compared to adults, but the他们对语言的显着脑可塑性的神经基础尚未了解。首次应用神经振荡的缩放分析来解决这个问题,我们表明,新生儿的电生理活动表现出与语音刺激后的长期时间相关性的增加,尤其是在产前听到的语言中,表明本地语言的大脑专业化的早期出现。主要的人类婴儿可以轻松地获取语言。这一壮举可能会早点开始,甚至可能是在出生1-5之前,因为听力是在妊娠24-28周之前进行的。宫内环境充当低通滤波器,降低了600Hz 2,7以上的频率。因此,在低通滤波的产前语音信号中抑制了单个语音,但韵律,即言语的旋律和节奏被保留了。哪些神经机制允许发展的大脑从语言经验中学习,但是,人们的理解仍然很差。胎儿已经从这种产前经历中学习了5,8:新生儿更喜欢母亲的声音,而不是其他女性声音1,并表现出对母亲在怀孕期间说的语言而不是其他语言的偏爱3。出生后,随着婴儿暴露于全乐队的语音信号,他们在9 - 13年生命的第一年结束时就可以调整其母语的良好细节。在这里,我们询问语音刺激是否可能引起动态变化,能够支持新生儿大脑活动的学习,以及该调制是否特定于产前听到的语言。我们使用脑电图(EEG)(EEG)在10个额叶,时间和中央电极部位上测量了产前法国曝光的新生儿(n = 49,年龄:2.39天;范围1-5天; 19个女孩)神经活动,而婴儿则在其住院底部休息时(图1A-B)。我们首先测量静息状态活动3分钟(沉默1)。然后,婴儿用三种不同的语言(法语,西班牙语和英语)以7分钟的障碍听到了演讲。最后,再次测量静息状态活性3分钟(静音2;图1C)。在参与者中,这些语言的顺序是伪随机和平衡的,例如17位婴儿听到法语,18名婴儿英语和14个婴儿西班牙语作为沉默之前的最后一个街区。除了