摘要 — 奥地利空中交通管制局的空中交通管制员 (ATCos) 与德国航空航天中心 (DLR) 共同量化了自动语音识别与理解 (ASRU) 对工作量和飞行安全带来的好处。作为基本程序,ATCos 手动(使用鼠标)将所有许可输入飞机雷达标签。作为我们提出的解决方案的一部分,ATCos 由 ASRU 支持,它能够自动提供所需的输入。只有当 ASRU 提供不正确的输出时,才会提示 ATCos 进行更正。当 ATCos 由 ASRU 支持时,手动插入许可(即通过单击并选择屏幕上的正确输入)所需的总时间从 14 小时模拟时间内的 12,800 秒减少到 405 秒。鉴于早期的实验,通过 ASRU 减少雷达标签维护时间可能并不令人惊讶。但是,超过 30 倍的效果优于早期的结果。此外,本文还考虑了安全方面,即空中交通管制员在有和没有 ASRU 的情况下向飞机雷达标签提供错误输入的频率。本文表明,基于人工智能的 ASRU 系统足够可靠,可以集成到空中交通管制操作室中。
后印本:Jesús S. García-Salinas、Alejandro A. Torres-García、Carlos A. Reyes-Garćia、Luis Villaseñor-Pineda,基于 EEG 的想象语音识别的受试者内类别增量深度学习方法,生物医学信号处理与控制,第 81 卷 (2023),104433,DOI:10.1016/j.bspc.2022.104433
和许多人一样,我在一家员工遍布全球的公司远程工作。这种工作环境需要每天与同事进行视频通话,其中许多人都不是英语母语人士(在语言学领域,母语人士称为 L1,非母语人士称为 L2)。我们经常使用自动转录来记录通话期间讨论的内容。这些通话记录的范围从非常好到无法使用,具体取决于说话者、术语和各种环境因素。虽然这种行为对于使用自动语音识别 (ASR) 引擎的人来说并不奇怪,但考虑到该领域最近的许多进展以及一些备受瞩目的声称人类在这项任务上的表现相当,其他人对普遍存在的错误感到惊讶。确实,在过去十年中,语音领域取得了许多突破,并且有许多领域依赖于高质量的语音识别,例如对话式人工智能、智能扬声器和自动驾驶汽车;所有这些都在继续推动语音识别领域的研究。
静默语音接口允许在没有声学语音信号的情况下进行语音通信。在这种应用中,使用在说话者脸上安装无线电天线的雷达感应可用作测量语音清晰度的非侵入式方式。这种方法的主要挑战之一是不同会话之间的差异性,主要是由于天线在说话者脸上的位置不同。为了减少这个影响因素的影响,我们开发了一种可穿戴耳机,它可以用柔性材料 3D 打印而成,重量仅为 69 克左右。为了进行评估,进行了一项基于雷达的单词识别实验,其中五位说话者在多个会话中录制了语音语料库,交替使用耳机和双面胶带将天线贴在脸上。通过使用双向长短期记忆网络进行分类,使用耳机和胶带分别获得了 76.50% 和 68.18% 的平均会话间单词准确率。这表明,使用耳机的天线(重新)定位精度并不比使用双面胶带的差,同时还具有其他优势。索引词:静音语音接口、可穿戴耳机、BiLSTM、雷达成像、语音相关生物信号
摘要 — 自动语音识别 (ASR) 界面在日常生活中越来越受欢迎,用于电子设备的交互和控制。当前使用的界面不适用于各种用户,例如患有言语障碍、闭锁综合症、瘫痪或对隐私有极高要求的用户。在这种情况下,可以使用脑电图 (EEG) 信号识别设想语音的界面可以带来很大的好处。过去已经针对这个问题进行了各种研究。然而,在识别有助于设想语音识别的 EEG 信号频带 (δ、θ、α、β、γ) 方面工作有限。因此,在这项工作中,我们旨在分析从大脑不同叶获得的不同 EEG 频带和信号的重要性及其对识别设想语音的贡献。从不同叶瓣获得的信号以及针对不同频带进行带通滤波的信号被输入到具有卷积神经网络 (CNN) 和长短期记忆 (LSTM) 的时空深度学习架构中。性能评估基于一个公开可用的数据集,该数据集包含三个分类任务 - 数字、字符和图像。我们对这三个任务的分类准确率分别为 85.93%、87.27% 和 87.51%。实现代码已在 https://github.com/ayushayt/ImaginedSpeechRecognition 上提供。索引术语 - 设想语音、EEG、CNN、LSTM、频带、脑机接口
摘要:许多轮椅使用者依赖他人来控制轮椅的移动,这严重影响了他们的独立性和生活质量。智能轮椅提供了一定程度的自立和驾驶自己车辆的自由。在这项工作中,我们设计并实施了一种低成本的软件和硬件方法来操纵机器人轮椅。此外,从我们的方法中,我们基于 Flutter 软件开发了自己的 Android 移动应用程序。我们还开发并配置了一种基于卷积神经网络 (CNN) 的网络内 (NIN) 结构方法,该方法与语音识别模型相结合,以构建移动应用程序。该技术还使用软件和硬件组件之间的离线 Wi-Fi 网络热点来实施和配置。五个语音命令(是、否、左、右和停止)通过 Raspberry Pi 和直流电机驱动器引导和控制轮椅。整个系统基于阿拉伯语母语人士针对孤立词训练和验证的英语语音语料库进行评估,以评估 Android OS 应用程序的性能。还从准确性方面评估了室内和室外导航的可操作性性能。结果表明,五个语音命令中的一些命令的准确预测准确度约为 87.2%。此外,在实时性能测试中,室内/室外操纵的计划节点和实际节点之间的均方根偏差 (RMSD) 值为 1.721 × 10 − 5
自动语音识别(ASR)是将人类的语音分析为语音信号,然后自动将其转换为人类可以理解的字符串的技术。语音识别技术已经从识别单个单词的初级水平发展到识别由多个单词组成的句子的高级水平。在实时语音对话中,高识别率提高了自然信息传递的便利性,扩大了基于语音的应用范围。另一方面,随着语音识别技术的积极应用,对相关网络攻击和威胁的担忧也日益增加。根据现有的研究,对技术开发本身的研究正在积极进行,例如自动说话人验证(ASV)技术的设计、准确率的提高等。但是,对攻击和威胁的深入和种类的分析研究并不多。在本研究中,我们针对配备自动识别技术的AI语音识别服务,提出了一种通过简单操纵语音频率和语音速度来绕过语音认证的网络攻击模型,并通过在商用智能手机的自动识别系统上进行大量实验来分析网络威胁。以此,我们旨在告知相关网络威胁的严重性,并提高对有效对策研究的兴趣。
山内信介 传播中心负责人 在个人销售部门工作后,作为产品、运营和销售规划部的集团经理,负责规划和开发招聘材料、销售培训、数字营销等。自 2020 年 4 月以来的当前职位
1个实验ML系统细分,Sberdevices Department,PJSC Sberbank,121165俄罗斯莫斯科; dvvorontsova@sberbank.ru(d.v.); aizubov@sberbank.ru(a.z.); bernalis@yandex.ru(P.R.); ensezvereva@sberbank.ru(E.Z.); le tlipman@sberbank.ru(l.f.); ablanikin@sberbank.ru(A.L.); aalekokolova@sberbank.ru(A.S。); Markov.s.s@sberbank.ru(S.M.)2俄罗斯莫斯科的国家电子技术大学(MIET)国家研究大学(MIET)软件工程系3莫斯科州立大学的力学和数学学院,GSP-1,1 Leninskiye-Gory,Main Building,119991莫斯科,俄罗斯,俄罗斯,俄罗斯; Moscow物理与技术研究所(MIPT),141700 Dolgodudny,俄罗斯5信息技术与计算机科学系141700年,莫斯科物理与技术研究所(MIPT)控制与应用数学系4 4 4. Ostrovityanova Street联邦医学生物机构的神经技术”,第1页。 10,117997俄罗斯莫斯科; rensorlov@icloud.com 7俄罗斯血管内神经协会(RENS),俄罗斯莫斯科107078 *通信:bernadotte.alexandra@intsys.msu.ru†主要贡献。2俄罗斯莫斯科的国家电子技术大学(MIET)国家研究大学(MIET)软件工程系3莫斯科州立大学的力学和数学学院,GSP-1,1 Leninskiye-Gory,Main Building,119991莫斯科,俄罗斯,俄罗斯,俄罗斯; Moscow物理与技术研究所(MIPT),141700 Dolgodudny,俄罗斯5信息技术与计算机科学系141700年,莫斯科物理与技术研究所(MIPT)控制与应用数学系4 4 4. Ostrovityanova Street联邦医学生物机构的神经技术”,第1页。 10,117997俄罗斯莫斯科; rensorlov@icloud.com 7俄罗斯血管内神经协会(RENS),俄罗斯莫斯科107078 *通信:bernadotte.alexandra@intsys.msu.ru†主要贡献。
人工智能在医疗保健中的症状检查 人工智能的定义是“能够执行通常需要人类智能的任务的计算机系统的理论和开发,例如视觉感知、语音识别、决策和语言之间的翻译。”