I. 引言当今时代是人机交互的时代,人在银行和金融机构、国防和军事、教育、医疗和交通领域、预订系统、查询系统等各个领域都发挥着至关重要的作用。由于英语的存在,欠发达地区和农村社区无法使用技术,从而导致计算机网络和通信意识的传播。对于非英语用户来说,最好的解决方案可能是用母语与人互动的智能设备。印度是一个语言多元化的国家,根据 2001 年的人口普查,印度有 1599 种语言、122 种主要语言和 22 种官方语言,其中包括印地语、英语、尼泊尔语、克什米尔语、古吉拉特语、旁遮普语、梵语、孟加拉语、奥里雅语、曼尼普尔语、马拉地语、卡纳达语、孔卡尼语、泰米尔语、泰卢固语和乌尔都语 [1,2,3] 根据第 8 附表。这些是印度的自然使用语言。本文重点研究语言代码选择,即在一次话语中从一种语言转换为另一种语言,也称为代码转换。
组织主席致辞 我谨代表组委会,感谢杰出的受邀演讲者(来自学术界和业界)、参与者、国际项目委员会、DA-IICT 教职员工、行政人员、工作人员和学生志愿者为举办第六届暑期学校所做的宝贵贡献,主题为“自动语音识别 (ASR)” ,将于 2024 年 7 月 6 日至 10 日在印度甘地讷格尔的 DA-IICT 举行。这个暑期学校提供了一个与杰出的受邀演讲者互动的平台,以发现新方法并拓宽我们在自动语音识别 (ASR) 广泛领域的知识。此外,为了鼓励年轻人才,学校举办了第五届 5 分钟博士论文 (5MPT) 竞赛,并设立了四个 ISCA 认可的现金奖项。我们很荣幸能有杰出的世界级专家,即 Hynek Hermansky 教授(博士)(美国约翰霍普金斯大学电气与计算机工程系)、Bhuvana Ramabhadran 博士(美国谷歌研究中心)、Mathew Magimai Doss 博士(瑞士马蒂尼 IDIAP 研究所)、Chng Eng Siong 教授(博士)(新加坡南洋理工大学)、Srikanth Madikeri 教授(博士)(瑞士苏黎世大学)。此外,我们还有 Bayya Yegnanarayana 教授(博士)(IIIT,海得拉巴)、CV Jawahar 教授(博士)(IIIT,海得拉巴)、Sriram Ganapathy 教授(博士)(IISc,班加罗尔)、Preethi Jyothi 教授(博士)(IIT 孟买)、Aparna Walanj 博士(Kokilaben Dhirubhai Ambani)孟买医院和研究中心)、Samudravajaya 教授(博士)(吉隆坡大学)和 Hemant A. Patil 教授(博士)(DA-IICT,甘地讷格尔)。在 INTERSPEECH 2018 的推动下,在暑期学校,我们组织了行业观点讲座,邀请了行业资深人士参加,他们包括 Tara N. Sainath 博士(谷歌研究院,美国)、Sunayana Sitaram 博士(微软研究实验室,班加罗尔)、Harish Arsikere 博士(亚马逊,班加罗尔)、Hardik B. Sailor 博士(信息通信研究所 (I2R),A*STAR,新加坡)、Vikram C. Mathad 博士(三星研究院,班加罗尔)、Nirmesh J. Shah 博士(索尼研究院,印度)、Sunil Kumar Kopparapu 博士(TCS 创新实验室,孟买)、Amitabh Nag 先生(电子和信息技术部 (MeitY),新德里)、Ajay Rajawat 先生(电子和信息技术部 (MeitY),新德里)、Dipesh K. Singh 先生(Augnito,孟买)、Gauri Prajapati 女士(微软研究院,班加罗尔)。如果没有潜在赞助商的慷慨资助,此类活动就无法举行。在这方面,我们对赞助商表示深切的感谢和赞赏,即 DA-IICT Gandhinagar、谷歌、国际语音通信协会 (ISCA)、印度语音通信协会 (IndSCA)、电子和信息技术部 (MeitY) 和数字印度 Bhashini 部门 (BHASHINI),如果没有他们,我们不可能组织这次活动。此外,我们感谢英国谢菲尔德大学的 Phil Green 教授(博士)对我们关于 ISCA 支持 S4P 2024 的提案的宝贵反馈。本次暑期学校吸引了来自世界各地的 95 名参会者,包括研究人员、行业人员、教职员工和学生。我们要诚挚地感谢 DA-IICT 管理部门的大力支持,包括主任 Tathagata Bandyopadhyay 教授(博士)、执行注册官 Siddharth Swaminarayan 先生、人力资源主管 Krutika Raval 女士以及所有行政人员。此外,我们还要感谢 Vikram Vij 博士,他推荐 Vikram CM 博士作为三星班加罗尔研发机构语音智能小组的特邀演讲嘉宾。此外,我们还要感谢吉隆坡大学维杰瓦达分校和海得拉巴校区的大力支持,以及一些赞助员工参加此次活动的初创公司。组委会成员希望参会人员和受邀演讲者在甘地讷格尔度过难忘的经历和愉快的时光,并希望你们将来继续访问 DA-IICT 并参加此类 ISCA 支持的活动。
摘要 — 奥地利空中交通管制局的空中交通管制员 (ATCos) 与德国航空航天中心 (DLR) 共同量化了自动语音识别与理解 (ASRU) 对工作量和飞行安全带来的好处。作为基本程序,ATCos 手动(使用鼠标)将所有许可输入飞机雷达标签。作为我们提出的解决方案的一部分,ATCos 由 ASRU 支持,它能够自动提供所需的输入。只有当 ASRU 提供不正确的输出时,才会提示 ATCos 进行更正。当 ATCos 由 ASRU 支持时,手动插入许可(即通过单击并选择屏幕上的正确输入)所需的总时间从 14 小时模拟时间内的 12,800 秒减少到 405 秒。鉴于早期的实验,通过 ASRU 减少雷达标签维护时间可能并不令人惊讶。但是,超过 30 倍的效果优于早期的结果。此外,本文还考虑了安全方面,即空中交通管制员在有和没有 ASRU 的情况下向飞机雷达标签提供错误输入的频率。本文表明,基于人工智能的 ASRU 系统足够可靠,可以集成到空中交通管制操作室中。
语音识别是计算语言学的一个重要领域[CRS05、CFL13]。多年来,研究人员已经开发出各种技术和工具来识别口语中的单词和短语[JM14、BMG∗16、HM15a]。最近,人工智能技术,特别是深度学习网络,已经具有革命性,因为它们超越了以前的方法,并且在语音转文本的结果中带来了高质量和低错误率[HDY∗12、MLJ∗14]。许多大公司已经使用深度学习模型提供基于云的语音转文本服务,例如微软[Mic]、谷歌[Goo19]等。来自多个领域的用户都渴望将这些人工智能工具用于实际应用,如进行实地调查和收集用户意见 [BZK12、HM15b、Muh15]。然而,转录结果仍然存在一系列实际问题,包括:(1)完整的语音被识别为一组片段,这些片段通常不能代表说话者的自然句子或段落;(2)音频识别错误不可避免,且质量差异很大;(3)语音识别算法给出的单词和片段的置信度得分有时不能反映出真实的误识别概率。这些问题已经阻碍了语音转文本工具的更广泛使用 [KRS17]。领域科学家在收集来自多个说话者的长音频时面临着有效完成以下任务的挑战:
摘要 — 自动语音识别 (ASR) 界面在日常生活中越来越受欢迎,用于电子设备的交互和控制。当前使用的界面不适用于各种用户,例如患有言语障碍、闭锁综合症、瘫痪或对隐私有极高要求的用户。在这种情况下,可以使用脑电图 (EEG) 信号识别设想语音的界面可以带来很大的好处。过去已经针对这个问题进行了各种研究。然而,在识别有助于设想语音识别的 EEG 信号频带 (δ、θ、α、β、γ) 方面工作有限。因此,在这项工作中,我们旨在分析从大脑不同叶获得的不同 EEG 频带和信号的重要性及其对识别设想语音的贡献。从不同叶瓣获得的信号以及针对不同频带进行带通滤波的信号被输入到具有卷积神经网络 (CNN) 和长短期记忆 (LSTM) 的时空深度学习架构中。性能评估基于一个公开可用的数据集,该数据集包含三个分类任务 - 数字、字符和图像。我们对这三个任务的分类准确率分别为 85.93%、87.27% 和 87.51%。实现代码已在 https://github.com/ayushayt/ImaginedSpeechRecognition 上提供。索引术语 - 设想语音、EEG、CNN、LSTM、频带、脑机接口
语音是我们最自然、最有效的交流方式,具有改善人机交互方式的巨大潜力。然而,语音通信有时会受到环境(例如环境噪音)、上下文(例如公共场所的隐私需求)或健康状况(例如喉切除术)的限制,从而阻碍可听语音的考虑。在这方面,已经提出了静音语音接口 (SSI)(例如,考虑视频、肌电图),然而,许多技术在日常使用中仍然面临限制,例如需要将设备与扬声器接触(例如,电极/超声波探头),并引发技术(例如,视频的照明条件)或隐私问题。在这种情况下,考虑可以帮助解决这些问题的技术,例如通过非接触式和/或放置在环境中,可以促进 SSI 的广泛使用。在本文中,我们将探讨连续波雷达以评估其在 SSI 方面的潜力。为此,我们获取了 3 位说话者的 13 个单词的语料库,并对结果数据测试了不同的分类器。使用 Bagging 分类器获得的最佳结果是,针对每位说话者进行训练,并进行 5 倍交叉验证,平均准确率为 0.826,这是一个令人鼓舞的结果,为进一步探索这项无声语音识别技术奠定了良好的基础。索引词:连续波雷达、无声语音识别、欧洲葡萄牙语、机器学习
自动语音识别(ASR)系统近年来见证了显着的进步。上下文化的ASR任务需要识别语音不是孤立的话语,而是在更广泛的情况下。常规方法经常采用第二通范式来重新排列初始转录,但它们有可能在候选假设中遇到预测错误,从而损害了识别精度。在这项研究中,我们引入了一个新颖的框架,该框架与典型的第二频繁撤退方法不同。给出了n-最佳假设,我们利用大型语言模型来提示上下文化的第二通过。除了追求更高的准确性外,我们还旨在探索性能边界,而无需实质上改变潜在的预培训的语言和语言模型。我们通过零拍的提示和战略性的低级适应调整来提高所提出的范式的有效性。在多个价值的口语阅读理解基准基准SRC上,促使模型和微调模型的表现优于1好的ASR假设,分别达到了13.6%和45.9%的明显相关性单词错误率(WER)改善。结果表明,提出的方法增强了转录准确性和上下文理解。
机器学习的最新进展表明,与随机初始化的模型相比,多模式的预训练可以改善自动语音识别(ASR)性能,即使模型在Uni-Modal-Modal任务上进行了微调。ASR任务的现有多模式预训练方法主要集中在单级预训练上,其中单个无监督任务用于预训练,然后在下游任务上进行微调。在这项工作中,我们介绍了一种新颖的方法,该方法将多模式和多任务的无监督预训练与基于翻译的监督中期训练方法相结合。我们从经验上证明,这种多阶段方法会导致相对单词错误率(WER)在LibrisPeech和Superb上的基线比基线高达38.45%的改善。此外,我们分享了选择预训练方法和数据集的几个重要发现。
扩散模型在单个模态内的持续数据中脱颖而出。将其有效的语音识别扩展到语音识别,其中连续的语音框架被用作生成离散单词令牌的条件,在离散状态空间中建立条件扩散至关重要。本文介绍了一个非自动性散布扩散模型,从而通过迭代分化步骤可以平行地生成与语音信号相对应的单词字符串。一个声学变压器编码器标识了语音表示形式,它是DeNoising Transformer解码器预测整个离散序列的条件。为了解决交叉模式扩散的冗余降低,在优化的情况下集成了另一个特征去相关目标。本文通过使用快速采样方法进一步减少推理时间。语音识别的实验说明了提出方法的优点。索引术语:语音识别,扩散模型,特征去相关,快速采样
自动语音识别(ASR)是将人类的语音分析为语音信号,然后自动将其转换为人类可以理解的字符串的技术。语音识别技术已经从识别单个单词的初级水平发展到识别由多个单词组成的句子的高级水平。在实时语音对话中,高识别率提高了自然信息传递的便利性,扩大了基于语音的应用范围。另一方面,随着语音识别技术的积极应用,对相关网络攻击和威胁的担忧也日益增加。根据现有的研究,对技术开发本身的研究正在积极进行,例如自动说话人验证(ASV)技术的设计、准确率的提高等。但是,对攻击和威胁的深入和种类的分析研究并不多。在本研究中,我们针对配备自动识别技术的AI语音识别服务,提出了一种通过简单操纵语音频率和语音速度来绕过语音认证的网络攻击模型,并通过在商用智能手机的自动识别系统上进行大量实验来分析网络威胁。以此,我们旨在告知相关网络威胁的严重性,并提高对有效对策研究的兴趣。