摘要 — 技术的最新发展为我们带来了令人惊叹的音频合成模型,如 TACOTRON 和 WAVENETS。另一方面,它也带来了更大的威胁,例如语音克隆和深度伪造,这些威胁可能无法被发现。为了应对这些令人担忧的情况,迫切需要提出能够帮助区分合成语音和实际人类语音并识别这种合成来源的模型。在这里,我们提出了一个基于卷积神经网络 (CNN) 和双向循环神经网络 (BiRNN) 的模型,有助于实现上述两个目标。使用双向 RNN 和 CNN 利用 AI 合成语音中存在的时间依赖性。该模型通过将 AI 合成音频与真实人类语音进行分类,错误率为 ≃ 1.9%,并以 ≃ 97% 的准确率检测底层架构,其表现优于最先进的方法。
语音是我们最自然、最有效的交流方式,具有改善人机交互方式的巨大潜力。然而,语音通信有时会受到环境(例如环境噪音)、上下文(例如公共场所的隐私需求)或健康状况(例如喉切除术)的限制,从而阻碍可听语音的考虑。在这方面,已经提出了静音语音接口 (SSI)(例如,考虑视频、肌电图),然而,许多技术在日常使用中仍然面临限制,例如需要将设备与扬声器接触(例如,电极/超声波探头),并引发技术(例如,视频的照明条件)或隐私问题。在这种情况下,考虑可以帮助解决这些问题的技术,例如通过非接触式和/或放置在环境中,可以促进 SSI 的广泛使用。在本文中,我们将探讨连续波雷达以评估其在 SSI 方面的潜力。为此,我们获取了 3 位说话者的 13 个单词的语料库,并对结果数据测试了不同的分类器。使用 Bagging 分类器获得的最佳结果是,针对每位说话者进行训练,并进行 5 倍交叉验证,平均准确率为 0.826,这是一个令人鼓舞的结果,为进一步探索这项无声语音识别技术奠定了良好的基础。索引词:连续波雷达、无声语音识别、欧洲葡萄牙语、机器学习
我们研究了从舌头的超声图像和嘴唇的视频图像中进行多说话人语音识别。我们在模态语音的图像数据上训练我们的系统,并在两种说话模式的匹配测试集上进行评估:无声语音和模态语音。我们观察到,从图像数据中进行的无声语音识别表现不如模态语音识别,这可能是因为训练和测试之间的说话模式不匹配。我们使用解决领域不匹配的技术来提高无声语音识别性能,例如 fMLLR 和无监督模型自适应。我们还从话语持续时间和发音空间大小方面分析了无声语音和模态语音的特性。为了估计发音空间,我们计算从超声舌头图像中提取的舌头样条的凸包。总体而言,我们观察到无声语音的持续时间比模态语音的持续时间长,并且无声语音比模态语音覆盖的发音空间小。尽管这两个特性在各种说话模式下都具有统计显著性,但它们与语音识别的单词错误率并不直接相关。索引词:无声语音界面、无声语音、超声舌成像、视频唇成像、发音语音识别
表面脑电图是测量电脑活动的标准且无创的方法。人工智能的最新进展导致自动检测大脑模式的显着改善,从而使越来越快,更可靠且更易于访问的脑部计算机接口。已经使用了不同的范式来实现人机的相互作用,最近几年对解释和表征“内部声音”现象的兴趣增加了。这个称为内部语音的范式仅通过考虑它来执行订单,从而提高了执行订单的可能性,从而允许一种“自然”控制外部设备的方式。不幸的是,缺乏公开可用的脑电图数据集,限制了内部语音识别的新技术的发展。提出了根据136个渠道获得的收购系统获得的十个对象数据集和其他两个相关的范例。这项工作的主要目的是为科学界提供内部语音命令的开放式多类脑电图数据库,可用于更好地理解相关的大脑机制。
摘要 语音识别阈值材料对听力损失程度广泛的个体的重测信度 Karin L. Caswell 杨百翰大学 沟通障碍系 理学硕士 本研究的目的是评估一份最新的数字记录的语音识别阈值 (SRT) 材料列表的重测信度。Chipman (2003) 确定了 33 个心理测量等同的扬抑格词,这些词在当今英语中经常出现。这些数字记录的单词用于根据美国言语-语言听力协会的指导方针确定 40 名参与者的 SRT。参与者的年龄在 19 至 83 岁之间,听力障碍从正常到严重不等。个人的纯音平均值将 16 名听力正常至轻度听力损失的参与者、12 名轻度听力损失的参与者和 12 名中度至重度听力损失的参与者分类。语音材料通过随机选择的一只耳朵呈现给参与者。在测试和重测条件下对同一只耳朵进行 SRT 测量。测试条件下的平均 SRT 为 22.7 dB HL,重测条件下的平均 SRT 为 22.8 dB HL,重测条件下的改进为 0.1 dB,但没有发现显着差异。使用修改后的方差方程确定重测信度,结果为 0.98,表明信度几乎完美。因此,对于新的 SRT 词,重测信度被确定为非常出色。
Alyssa M. Jacobs 沟通障碍系 理学硕士 多年来,语音识别阈值 (SRT) 测试一直被用作听力健康的指标。然而,随着方法和技术的变化,重测信度尚未得到广泛审查,新的数字记录的扬抑格词符合已发布的听众熟悉度标准。本研究检查了 33 个高频使用和心理测量等同扬抑格词的重测信度。美国言语-语言-听力协会推荐的方法(2-dB 减量)用于测量 40 名参与者的左右 SRT,使用男性和女性说话者录音。对于每个参与者,在测试条件下发现四个 SRT,在重测条件下发现四个 SRT。分析了所有 SRT 分数,使用男性说话者录音得出的平均 SRT 值导致平均重测 SRT 比平均测试 SRT 高 1.4 dB。使用女性说话者录音得出的平均 SRT 值导致平均重测 SRT 比平均测试 SRT 高 1.2 dB。与每个参与者的纯音平均值 (PTA) 相比,SRT 分数也表现出较高的有效性。这项研究还发现,在使用数字记录和心理测量等同的扬抑格词时,使用男性说话者与使用女性说话者之间没有显著的相互作用。关键词:语音识别阈值、重测信度、数字记录材料
I. 引言当今时代是人机交互的时代,人在银行和金融机构、国防和军事、教育、医疗和交通领域、预订系统、查询系统等各个领域都发挥着至关重要的作用。由于英语的存在,欠发达地区和农村社区无法使用技术,从而导致计算机网络和通信意识的传播。对于非英语用户来说,最好的解决方案可能是用母语与人互动的智能设备。印度是一个语言多元化的国家,根据 2001 年的人口普查,印度有 1599 种语言、122 种主要语言和 22 种官方语言,其中包括印地语、英语、尼泊尔语、克什米尔语、古吉拉特语、旁遮普语、梵语、孟加拉语、奥里雅语、曼尼普尔语、马拉地语、卡纳达语、孔卡尼语、泰米尔语、泰卢固语和乌尔都语 [1,2,3] 根据第 8 附表。这些是印度的自然使用语言。本文重点研究语言代码选择,即在一次话语中从一种语言转换为另一种语言,也称为代码转换。
自动语音识别 (ASR) 系统功能越来越强大,越来越准确,但数量也越来越多,目前已有多种服务可供选择(例如 Google、IBM 和 Microsoft)。目前,此类系统最严格的标准是在对话式 AI 技术中使用和为对话式 AI 技术而制定的。这些系统有望实时逐步运行,响应迅速、稳定,并且对对话式语音中普遍存在但又特殊的特征(例如不流畅和重叠)具有鲁棒性。在本文中,我们将使用根据这些标准设计的指标和实验来评估其中最受欢迎的系统。我们还评估了相同系统的说话人分类 (SD) 功能,这对于旨在处理多方交互的对话系统尤为重要。我们发现,Microsoft 拥有领先的增量式 ASR 系统,该系统可以保留不流畅的材料,而 IBM 除了对语音重叠最鲁棒的 ASR 之外,还拥有领先的增量式 SD 系统。Google 在两者之间取得了平衡,但这些系统都不适合实时可靠地处理自然自发对话。
摘要:自动轮椅是提高残疾人行动能力的重要工具。计算机和无线通信技术的进步促进了智能轮椅的提供,以满足残疾人的需求。本研究论文介绍了语音控制电动轮椅的设计和实现。该设计基于语音识别算法,对驱动轮椅所需的命令进行分类。自适应神经模糊控制器已用于生成启动轮椅电机所需的实时控制信号。该控制器依赖于从避障传感器和语音识别分类器接收到的真实数据。轮椅被视为无线传感器网络中的节点,以便跟踪轮椅的位置并进行监督控制。模拟和运行实验表明,通过结合软计算和机电一体化的概念,实现的轮椅变得更加复杂,并为人们提供了更大的移动性。
在边缘本地运行语音识别模型非常困难(例如,在飞机或其他车辆内,无需连接到云端)。典型的语言处理 AI 系统利用大量服务器基础设施来处理语音,而 Appareo 目前在 iPad 或 iPhone 上运行 ATC Transcription。此外,该模型能够托管在其他硬件平台上,例如 nVidia Jetson Nano 或 Appareo 制造的定制解决方案(见下图)。这使得 ATC Transcription 可以在网络覆盖范围之外运行,安全可靠地执行其功能。