• 2009 年:GPU • 2010 年:语音识别取得突破(Dahl 等人,2010 年) • 2012 年:ImageNet 取得突破(Krizhevsky 等人,2012 年) • 2015 年:图像和语音识别取得“超人”成绩 • 2016 年:AlphaGo 在围棋比赛中取得“超人”成绩 • 2022 年:ChatGPT 在不同领域取得“人类水平”的成绩 • 2023 年:具有多模态性的 GPT-4 Turbo 和 Gemini
人工智能 (AI) 在帮助聋人和听力障碍人士方面的探索揭示了一个充满活力且快速发展的领域。人工智能已经在打破沟通障碍和提高听力障碍人士的可及性方面取得了重大进展。自动语音识别 (ASR)、人工智能助听器、手语翻译和非标准语音识别等技术不仅改善了聋人和听力障碍人士的生活质量,还为他们融入社会和参与社会开辟了新途径。
摘要:尽管辅助系统由于固有技术的日益成熟而具有更大的潜力,但自动语音识别在工业环境中面临着独特的挑战。语音识别使沉浸式辅助系统能够在双手操作工作期间免提处理输入和命令。基于平衡的受试者内设计进行的研究(n = 22 名参与者)的结果证明了 HMD HoloLens 2 的性能(字错误率和信息传输率)与工业噪声的声压级的关系。工业噪声对听写的字错误率的负面影响高于对语音命令的信息传输率的影响。与预期相反,在平稳和非平稳噪声之间没有发现性能的统计学上显着差异。此外,这项研究证实了错误的语音交互会对用户接受度产生负面影响的假设。此外,错误的语音交互对工作量或生理参数(皮肤电导率和心率)没有统计学上显着的影响。可以总结一下,自动语音识别还不是一种适合工业环境的交互范例。
speech2craft • 命令跟随机器人 • 导航、收集等• 语音识别、NLP 解析 • https://hiroishikawa.github.io/speech2craft/
人类和机器都使用语音识别系统。各种研究人员已经开发了许多语音识别系统。例如语音识别、说话人验证和说话人识别。语音识别系统的基本阶段是预处理、特征提取、特征选择和分类。已经进行了大量工作来改进所有这些阶段以获得准确和更好的结果。本文主要关注在语音识别系统中添加机器学习。本文介绍了 ASR 的架构,有助于了解语音识别系统的基本阶段。然后重点介绍了机器学习在 ASR 中的应用。本文的一部分还介绍了各种研究人员使用支持向量机和人工神经网络所做的工作。除了这篇评论外,还介绍了使用 SVM、ELM、ANN、朴素贝叶斯和 kNN 分类器所做的工作。模拟结果表明,使用 ELM 分类器可实现最佳准确度。本文的最后一部分介绍了使用所提出的方法获得的结果,其中使用了 SVM、带有 Cuckoo 搜索算法的 ANN 和带有反向传播分类器的 ANN。重点还在于改进预处理和特征提取过程。
连续静默语音识别模型试图解码人们在脑海中阅读的内容。它可以被认为接近于读心术问题,其中思想也被解码。沿着这个方向的研究可以使有严重认知障碍的人使用 Siri、Alexa、Bixby 等虚拟助手,从而提高技术的可访问性。它还可以使有认知障碍的人与其他人交流。连续静默语音识别技术还可以让士兵和科学家在敏感的工作环境中进行秘密通信。最后,连续静默语音识别技术可以为身体健全的人引入一种新的基于思想的交流形式。脑电图 (EEG) 是一种通过将 EEG 传感器放置在受试者的头皮上来测量人脑电活动的非侵入性方法。即使空间分辨率较差,EEG 信号也具有很高的时间分辨率。另一方面,皮层电图 (ECoG) 是一种测量人脑电活动的侵入性方法。 ECoG 信号具有与 EEG 信号相似的时间分辨率,但比 EEG 信号具有更好的空间分辨率和信噪比 (SNR)。ECoG 的主要缺点是它是一种侵入性程序,需要受试者接受脑部手术才能植入 ECoG 电极。在这项工作中,我们使用非侵入性 EEG 信号来解码受试者的想法或执行连续无声语音识别。在 [1, 2, 3] 中,作者展示了使用 EEG 信号进行孤立和连续语音识别,这些信号是在受试者大声说出英语句子和听取有限英语词汇的英语话语时并行记录的。[2, 3, 1] 中的作者使用端到端自动语音识别 (ASR) 模型,如连接主义时间分类 (CTC) [4]、注意模型 [5] 和传感器模型 [6] 将 EEG 输入特征直接转换为文本。在 [7, 8] 中描述的一项最新工作中,作者展示了直接从 EEG 特征合成语音的可行性。尽管在[3]中,作者们利用被动聆听过程中记录的脑电图信号展示了语音识别,但他们的实验
迁移学习已在图像分类、自然语言处理和语音识别等多个应用中取得了最先进的成果。在图像分类中,迁移学习已用于通过迁移在大型数据集上训练的模型中的知识来提高小数据集上模型的性能。在自然语言处理中,迁移学习已用于通过迁移在一般语言理解任务上训练的模型中的知识来提高情绪分析和命名实体识别等特定任务上模型的性能。在语音识别中,迁移学习已用于通过迁移在特定语言或方言上训练的模型中的知识来提高不同语言和方言中模型的性能。
• 语音识别软件 • 招聘软件 • 图像识别(例如:面部或手部识别) • 词嵌入(自动完成、翻译) • 风险评估算法(例如:评估被告犯下更多罪行的风险)