本研究旨在调查使用人工智能进行自主发音学习的效果以及高年级学生使用人工智能进行自主发音学习的经验。以三宝垄 PGRI 大学一年级 32 名学生为样本,采用定量和定性方法进行解释性顺序混合方法研究。使用评估、访谈和教学材料评估作为工具。通过前测和后测,使用定量分析来评估学生的发音能力。使用 SPSS 进行定量数据分析。但是,使用定性分析来审查访谈。为了支持测试结果,对其进行了描述性检查。在使用基于 AI 的应用程序 ELSA 进行治疗后,发现 AI 的使用与自主发音学习之间存在显著相关性。但是,ELSA 也存在某些缺点。它似乎主要关注音段特征而非超音段特征。在提供的所有用于练习超音段特征的功能中,只有语调可用。虽然学生发现很难强调单词,但没有其他练习超音段特质的方法。实际上,ELSA 网站表示其课程涵盖了单词重音、语调、节奏、听力和对话等核心英语技能。因此,ELSA 的创建者可能会在继续改进其产品时考虑到这一批评。这意味着创作者能够响应客户或用户的顾虑或建议,这有助于产品的持续发展和成功。
Goldsmith, JA (1990)。自音段和韵律音系学。牛津:Blackwell。 Halle, M. (1983)。论区别性特征及其发音实现。自然语言与语言学理论 1:91-105。 Hulst, H. vd (1989)。音段结构的原子:成分、手势和依赖性。音系学 6:253-284。 Lombardi, L. (1994)。喉部特征和喉部中和。纽约:Garland。 Padgett, J. (1995)。特征几何中的限制。斯坦福:CSLI 出版物。 Sandler, W.,编辑 (1993)。音系学:手语音系学特刊。音系学 10:165-306。 Schane, SA (1984)。粒子音系学的基础。音系学年鉴 1:129–155。Walsh, DL (1997)。流音音系学。博士论文。马萨诸塞大学阿默斯特分校。Williamson, K. (1977)。辅音的多值特征。语言 53:843–871。
从大脑活动中解码语音是医疗保健和神经科学中期待已久的目标。侵入性设备最近导致了这方面的主要里程碑:对颅内记录训练的深度学习算法现在开始解码基本语言特征(例如字母,单词,频谱图)。但是,这种对自然语音和非侵入性脑记录的方法仍然是一个主要挑战。为了解决这些问题,我们引入了一种对比学习模型,该模型训练有素,可以从大量个体的无创录音中解释自然语音的自我监督表达。为了评估这种方法,我们策划并整合了四个公共数据集,其中包括169名志愿者,并在听自然语音的同时,记录了磁性或电脑摄影(M/EEG)(M/EEG)。结果表明,我们的模型可以从3秒钟的MEG信号中识别出相应的语音段,在1,594个不同的可能性中,具有高达44%精度的相应语音段 - 这种性能允许在训练集中不使用短语解码。模型比较和消融分析表明,这些结果直接受益于(i)对比目标,(ii)语音的预估计表示和(iii)(iii)经过多个参与者培训的常见卷积体系结构。总的来说,这些结果描述了帮助沟通障碍患者的有前途的途径,而不会使他们处于脑部手术的风险。
枢纽的运动,尤其是下颌,建立了语音信封能量波动的上和下限。这些缓慢的关节运动在很大程度上与被称为“音节”的语言元素相吻合。尽管音节可能仅包含一个单个语音段(例如“ A”)或多达七个(例如“强度”),但大多数音节仅包含两个或三个(Greenberg,1999)。尽管音节的平均持续时间约为美国英语(Greenberg,1999年)和日语165毫秒(Arai and Greenberg,1997),但它们的长度可能从约100毫秒到约330毫秒。这种持续性属性对于下一个讨论很重要,因为它们也可以用“调制频率”来表达,这是代表一系列时间尺度上语音节奏的关键定量指标,并且在语音清晰度上也很重要(可以解码和理解在短语,句子,句子,或更长的句子中使用的单词)。
抽象的人类交流本质上是多模式的。听觉演讲,但视觉提示也可以用来理解另一个说话者。大多数视听语音感知的研究都集中在语音段的感知上(即语音)。然而,对视觉信息对词汇应力等语音上段方面的感知的影响鲜为人知。在两个实验中,我们研究了不同视觉提示(例如面部关节线索和手势)对词汇应力的视听感的影响。我们介绍了disyllabic荷兰压力对的听觉词法压力连续性以及在第一个或第二个音节上产生压力的扬声器的视频(例如,表达voornaam或voornaam)。此外,我们将扬声器的表面结合起来,在音节上产生词汇应力,并在第一个音节或第二个音节上产生节拍手势,从而产生词汇应力。结果表明,人们成功地使用了视觉发音线索来在静音视频中进行压力。但是,在视听条件下,我们无法找到视觉关节线索的影响。相比之下,我们发现节拍手势的时间对齐具有强烈的影响,从而影响了参与者对词汇压力的看法。这些结果强调了在多模式上下文中考虑语言上部方面的重要性。
解码一个人通过脑电图(EEG)从人脑聆听的语音信号可以帮助我们忽略听觉系统的工作原理。线性模型已用于从语音中重建脑电图,反之亦然。最近,人工神经网络(ANN),例如,综合神经网络(CNN)和基于长期的短期记忆(LSTM)架构在建模脑电图与语音之间的关系方面的线性模型优于线性模型。在诱惑将这些模型在实际应用中使用这些模型之前,例如听力测试或(第二)语言理解评估,我们需要知道这些模型正在介绍哪种语音信息。在这项研究中,我们旨在使用不同级别的语音特征分析基于LSTM的模型的性能。该模型的任务是确定两个给定的语音段中的哪个与记录的脑电图匹配。我们使用了低级和高级语音特征,包括:信封,MEL频谱,语音活动,音素标识和词嵌入。我们的结果表明,该模型可阐述有关脑电图中有关沉默,强度和广泛语音类别的信息。此外,包含所有这些信息的MEL频谱图在所有特征中都具有最高的精度(84%)。索引术语:LSTM,CNN,语音解码,听觉系统,EEG
阅读是一项必不可少的技能,不仅需要在学校成功,而且要维持越来越有识字社会的高质量生活。技术的变化改变了阅读格式,并提高了扫盲环境的范围和复杂性,从而给基础阅读技能带来了更大的压力。这些技能的发展发生在与学习书面语言的形式和功能相关的相应神经发展及其与口语的关系。学习阅读的困难与成功学习的神经模式有关。因此,对阅读神经基础的研究为扫盲和阅读障碍的发展提供了信息。最近的进步是基于行为和大脑研究的40多年研究所提供的显着基础(Perfetti和Helder,2022年是对这项研究的评论)。该基础建立了有关阅读和学习阅读的认知过程的基本事实,包括对构成印刷单词的身份的正交,语音和语义信息的获取,并由口语和概念知识支持。一个强大的发现是语音知识,例如,对毫无意义的语音段的意识会影响阅读习得和发育阅读障碍。对语音学水平(音素)的意识对于阅读字母写作系统和未能达到这种意识的失败尤其重要。在全球范围内,大多数孩子都学会阅读非字母语言。因此,为了了解阅读发展的普遍性及其使用特定语言和写作系统的变化,跨语言研究很重要。中文阅读引起了最多的研究关注,可以作为字母阅读的比较。例如,语音知识与中国阅读发展有关,就像字母阅读的发展一样。然而,视觉正面知识,视觉知识,形态意识,词汇量,工作记忆和其他一些因素可能与中国儿童识字的语音知识一样重要。
阅读是一项必不可少的技能,不仅需要在学校成功,而且要维持越来越有识字社会的高质量生活。技术的变化改变了阅读格式,并提高了扫盲环境的范围和复杂性,从而给基础阅读技能带来了更大的压力。这些技能的发展发生在与学习书面语言的形式和功能相关的相应神经发展及其与口语的关系。学习阅读的困难与成功学习的神经模式有关。因此,对阅读神经基础的研究为扫盲和阅读障碍的发展提供了信息。最近的进步是基于行为和大脑研究的40多年研究所提供的显着基础(Perfetti和Helder,2022年是对这项研究的评论)。该基础建立了有关阅读和学习阅读的认知过程的基本事实,包括对构成印刷单词的身份的正交,语音和语义信息的获取,并由口语和概念知识支持。一个强大的发现是语音知识,例如,对毫无意义的语音段的意识会影响阅读习得和发育阅读障碍。对语音学水平(音素)的意识对于阅读字母写作系统和未能达到这种意识的失败尤其重要。在全球范围内,大多数孩子都学会阅读非字母语言。因此,为了了解阅读发展的普遍性及其使用特定语言和写作系统的变化,跨语言研究很重要。中文阅读引起了最多的研究关注,可以作为字母阅读的比较。例如,语音知识与中国阅读发展有关,就像字母阅读的发展一样。然而,视觉正面知识,视觉知识,形态意识,词汇量,工作记忆和其他一些因素可能与中国儿童识字的语音知识一样重要。
原理是当代对世界语言中语音段库存的当代讨论的主要内容之一。Two di ff erent, albeit largely congruent, formulations of this principle were proposed by Lindblom & Maddieson ( ‘ small paradigms tend to exhibit ‘ unmarked ' phonetics whereas large systems have ‘ marked ' phonetics ' ; 1988 : 70) and Clements ( ‘ languages tend to maximise the ratio of sounds over features ' ; 2003 : 287).这个想法至少可以追溯到结构主义植物学的早期工作,包括Trubetzkoy(1939),Martinet(1952)和Hockett(1955),他们对语音学库存在多大程度上对特征对称性的程度感兴趣,或者,换句话说,换句话说,换句话说,换句话说,“行动性”的语音学库存获得了各种功能的范围;请参阅Clements(2003)中此概念的早期发展的概述。随后使用不同的配方和/或不同数据集得出了类似的结论(Marsico等人。 div al。2004,Coupé等。 2009,Mackie&Mielke 2011,Moran 2012,Dunbar&Dupoux 2016)以及特征经济的理论和实验研究已成为语音研究的主要渠道:参见Pater(2012),Verhoef等。 (2016)和Seinhorst(2017)。 当前论文的目的不是提出对特征经济原则的另一种解释或解释,而是要退后一步,以便重新评估它实际上符合世界语言语言库存的结构,重点是辅音。 1 Marsico等。 (2004)和Coupé等。2004,Coupé等。2009,Mackie&Mielke 2011,Moran 2012,Dunbar&Dupoux 2016)以及特征经济的理论和实验研究已成为语音研究的主要渠道:参见Pater(2012),Verhoef等。(2016)和Seinhorst(2017)。 当前论文的目的不是提出对特征经济原则的另一种解释或解释,而是要退后一步,以便重新评估它实际上符合世界语言语言库存的结构,重点是辅音。 1 Marsico等。 (2004)和Coupé等。(2016)和Seinhorst(2017)。当前论文的目的不是提出对特征经济原则的另一种解释或解释,而是要退后一步,以便重新评估它实际上符合世界语言语言库存的结构,重点是辅音。1 Marsico等。 (2004)和Coupé等。1 Marsico等。(2004)和Coupé等。(2004)和Coupé等。Clements(2003:288 - 289)假设是特征 - 经济原理只能受到功能因素的约束:‘从语音交流的角度来看,避免的特征融合可以证明是不可能的。也就是说,它们的表达相对复杂,或者它们的听觉属性与系统中其他某些声音的属性没有足够的不同。(2009)试图通过计算冗余