Alyssa M. Jacobs 沟通障碍系 理学硕士 多年来,语音识别阈值 (SRT) 测试一直被用作听力健康的指标。然而,随着方法和技术的变化,重测信度尚未得到广泛审查,新的数字记录的扬抑格词符合已发布的听众熟悉度标准。本研究检查了 33 个高频使用和心理测量等同扬抑格词的重测信度。美国言语-语言-听力协会推荐的方法(2-dB 减量)用于测量 40 名参与者的左右 SRT,使用男性和女性说话者录音。对于每个参与者,在测试条件下发现四个 SRT,在重测条件下发现四个 SRT。分析了所有 SRT 分数,使用男性说话者录音得出的平均 SRT 值导致平均重测 SRT 比平均测试 SRT 高 1.4 dB。使用女性说话者录音得出的平均 SRT 值导致平均重测 SRT 比平均测试 SRT 高 1.2 dB。与每个参与者的纯音平均值 (PTA) 相比,SRT 分数也表现出较高的有效性。这项研究还发现,在使用数字记录和心理测量等同的扬抑格词时,使用男性说话者与使用女性说话者之间没有显著的相互作用。关键词:语音识别阈值、重测信度、数字记录材料
摘要:自动轮椅是提高残疾人行动能力的重要工具。计算机和无线通信技术的进步促进了智能轮椅的提供,以满足残疾人的需求。本研究论文介绍了语音控制电动轮椅的设计和实现。该设计基于语音识别算法,对驱动轮椅所需的命令进行分类。自适应神经模糊控制器已用于生成启动轮椅电机所需的实时控制信号。该控制器依赖于从避障传感器和语音识别分类器接收到的真实数据。轮椅被视为无线传感器网络中的节点,以便跟踪轮椅的位置并进行监督控制。模拟和运行实验表明,通过结合软计算和机电一体化的概念,实现的轮椅变得更加复杂,并为人们提供了更大的移动性。
静默语音接口允许在没有声学语音信号的情况下进行语音通信。在这种应用中,使用在说话者脸上安装无线电天线的雷达感应可用作测量语音清晰度的非侵入式方式。这种方法的主要挑战之一是不同会话之间的差异性,主要是由于天线在说话者脸上的位置不同。为了减少这个影响因素的影响,我们开发了一种可穿戴耳机,它可以用柔性材料 3D 打印而成,重量仅为 69 克左右。为了进行评估,进行了一项基于雷达的单词识别实验,其中五位说话者在多个会话中录制了语音语料库,交替使用耳机和双面胶带将天线贴在脸上。通过使用双向长短期记忆网络进行分类,使用耳机和胶带分别获得了 76.50% 和 68.18% 的平均会话间单词准确率。这表明,使用耳机的天线(重新)定位精度并不比使用双面胶带的差,同时还具有其他优势。索引词:静音语音接口、可穿戴耳机、BiLSTM、雷达成像、语音相关生物信号
我们研究了从舌头的超声图像和嘴唇的视频图像中进行多说话人语音识别。我们在模态语音的图像数据上训练我们的系统,并在两种说话模式的匹配测试集上进行评估:无声语音和模态语音。我们观察到,从图像数据中进行的无声语音识别表现不如模态语音识别,这可能是因为训练和测试之间的说话模式不匹配。我们使用解决领域不匹配的技术来提高无声语音识别性能,例如 fMLLR 和无监督模型自适应。我们还从话语持续时间和发音空间大小方面分析了无声语音和模态语音的特性。为了估计发音空间,我们计算从超声舌头图像中提取的舌头样条的凸包。总体而言,我们观察到无声语音的持续时间比模态语音的持续时间长,并且无声语音比模态语音覆盖的发音空间小。尽管这两个特性在各种说话模式下都具有统计显著性,但它们与语音识别的单词错误率并不直接相关。索引词:无声语音界面、无声语音、超声舌成像、视频唇成像、发音语音识别
脑部计算机界面是一个重要而热门的研究主题,它彻底改变了人们与世界的互动,尤其是对于神经系统疾病的人。虽然已经在英语字母和单词的脑电图信号中进行了广泛的研究,但仍然存在一个主要限制:缺乏许多非英语语言(例如阿拉伯语)公开可用的脑电图数据集。尽管阿拉伯语是全球口语最多的语言之一,但据我们所知,到目前为止,目前尚无公开可用的脑电图信号。为了解决这一差距,我们介绍了Areeg_chars,这是一个新颖的EEG数据集,该数据集用于30名参与者(21名男性和9名女性)的阿拉伯语31个字符,使用Epoc X 14通道设备收集了这些记录,每次CHAR记录长10秒。记录信号的数量为930个脑电图记录。使EEG信号适合分析,每个记录分别分别为多个信号,分别为250ms。因此,本研究中总共收集了39857个脑电图信号的记录。此外,Areeg_chars将公开用于研究人员。我们确实希望该数据集能够填补对阿拉伯语脑电图的研究,从而使讲阿拉伯语的残疾人受益。
和许多人一样,我在一家员工遍布全球的公司远程工作。这种工作环境需要每天与同事进行视频通话,其中许多人都不是英语母语人士(在语言学领域,母语人士称为 L1,非母语人士称为 L2)。我们经常使用自动转录来记录通话期间讨论的内容。这些通话记录的范围从非常好到无法使用,具体取决于说话者、术语和各种环境因素。虽然这种行为对于使用自动语音识别 (ASR) 引擎的人来说并不奇怪,但考虑到该领域最近的许多进展以及一些备受瞩目的声称人类在这项任务上的表现相当,其他人对普遍存在的错误感到惊讶。确实,在过去十年中,语音领域取得了许多突破,并且有许多领域依赖于高质量的语音识别,例如对话式人工智能、智能扬声器和自动驾驶汽车;所有这些都在继续推动语音识别领域的研究。
后印本:Jesús S. García-Salinas、Alejandro A. Torres-García、Carlos A. Reyes-Garćia、Luis Villaseñor-Pineda,基于 EEG 的想象语音识别的受试者内类别增量深度学习方法,生物医学信号处理与控制,第 81 卷 (2023),104433,DOI:10.1016/j.bspc.2022.104433
Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.
自动语音识别 (ASR) 系统功能越来越强大,越来越准确,但数量也越来越多,目前已有多种服务可供选择(例如 Google、IBM 和 Microsoft)。目前,此类系统最严格的标准是在对话式 AI 技术中使用和为对话式 AI 技术而制定的。这些系统有望实时逐步运行,响应迅速、稳定,并且对对话式语音中普遍存在但又特殊的特征(例如不流畅和重叠)具有鲁棒性。在本文中,我们将使用根据这些标准设计的指标和实验来评估其中最受欢迎的系统。我们还评估了相同系统的说话人分类 (SD) 功能,这对于旨在处理多方交互的对话系统尤为重要。我们发现,Microsoft 拥有领先的增量式 ASR 系统,该系统可以保留不流畅的材料,而 IBM 除了对语音重叠最鲁棒的 ASR 之外,还拥有领先的增量式 SD 系统。Google 在两者之间取得了平衡,但这些系统都不适合实时可靠地处理自然自发对话。