最近的研究表明,可以使用语音刺激和神经反应的匹配-不匹配分类来分析人类语音理解的潜在神经机制。然而,此类研究都是针对固定持续时间段进行的,而没有考虑到大脑对语音的离散处理。在这项工作中,我们确定词边界信息通过将脑电图与语音输入联系起来,在句子处理中起着重要作用。我们使用卷积层网络处理语音和脑电图信号。然后,对表示执行基于词边界的平均池化,并使用循环层合并词间上下文。实验表明,在公开的语音脑电图数据集上,建模准确度可以显著提高(匹配-不匹配分类准确度)至 93%,而之前的努力在这个任务中实现了 65-75% 的准确度。索引词:语音脑电图匹配不匹配任务、听觉神经科学、词分割、语音理解。
对想象语音的解码EEG信号是由于数据的高维质和较低的信噪比,这是一项挑战任务。近年来,降解扩散概率模型(DDPM)已成为各种领域中表示学习的承诺方法。我们的研究提出了一种新的方法,用于使用DDPMS和一个有条件的自动代码器来解码EEG信号,以进行想象的语音。结果表明,与传统的机器学习技术和基线模型相比,差异可以显着提高对想象语音的EEG信号的准确性。我们的发现表明,DDPM可以成为脑电信号解码的有效工具,并具有潜在的暗示,以开发脑部计算机界面,从而通过想象的语音使通信能够进行通信。索引术语:无声沟通,语音识别,电子脑摄影,想象的语音,脑部计算机界面
自 2019 年以来,INTERSPEECH 首次以纯面对面的形式重返舞台。COVID 教会了我们很多关于虚拟和混合格式的利弊。这些论点在去年的 INTERSPEECH 会议上进行了讨论。普遍的看法是,混合格式无法取代面对面的会面,而面对面的会面是参加科学活动的最重要原因之一。特别是在国际环境中,参与者来自世界各地,有限的虚拟演示和讨论时间段只能低调地替代此类会面。反过来,如果要组织整个会议并为混合出席提供技术支持,出席费用将变得高得令人望而却步。因此,我们决定恢复面对面的形式,将虚拟演示形式保留给有特殊(健康或签证相关)限制的科学家。在我看来,这不会标志着 INTERSPEECH 格式发展的终结,因为气候变化要求我们更加密切地控制我们的环境足迹;我希望我们能看到其他创新来帮助我们解决人类最重要的问题。
Reviewer for ICASSP, INTERSPEECH, LREC, SCiL, the National Science Foundation, the Natural Sciences and Engineering Research Council of Canada, Oxford University Press, Biolinguistics , Cognition , Cognitive Science , Computational Linguistics , Glossa , Journal of Child Language , Journal of Linguistics , Journal of Autism & De- velopmental Disorders , Language , Language Variation & Change , Lingua , Nature Communication , Phonology , PLOS ONE , and计算语言学协会的交易。
痴呆症是一种常见的脑部疾病,对个人和社会都有负面影响。本文涉及使用 Interspeech 2020 的自发语音 (ADReSS) 挑战赛对阿尔茨海默氏痴呆症进行分类。我们使用 (1) VGGish(一种深度预训练的 Tensorflow 模型)作为音频特征提取器,并使用 Scikit-learn 分类器来检测语音中的痴呆症迹象。三个分类器(LinearSVM、Perceptron、1NN)的准确率为 59.1%,比在挑战赛中使用的声学特征上训练的最佳基线模型高出 3%。我们还提出了 (2) DemCNN,这是一种新的基于 PyTorch 原始波形的卷积神经网络模型,准确率为 63.6%,比表现最佳的基线线性判别分析模型准确率高出 7%。我们发现,使用预训练的 VGGish 特征提取器的音频迁移学习比使用自动提取的声学特征的基线方法表现更好。我们的 DepCNN 表现出良好的泛化能力。本文介绍的两种方法都为通过自发语音进行新的、创新的、更有效的基于计算机的痴呆症筛查提供了进展。
组织主席致辞 我谨代表组委会,感谢杰出的受邀演讲者(来自学术界和业界)、参与者、国际项目委员会、DA-IICT 教职员工、行政人员、工作人员和学生志愿者为举办第六届暑期学校所做的宝贵贡献,主题为“自动语音识别 (ASR)” ,将于 2024 年 7 月 6 日至 10 日在印度甘地讷格尔的 DA-IICT 举行。这个暑期学校提供了一个与杰出的受邀演讲者互动的平台,以发现新方法并拓宽我们在自动语音识别 (ASR) 广泛领域的知识。此外,为了鼓励年轻人才,学校举办了第五届 5 分钟博士论文 (5MPT) 竞赛,并设立了四个 ISCA 认可的现金奖项。我们很荣幸能有杰出的世界级专家,即 Hynek Hermansky 教授(博士)(美国约翰霍普金斯大学电气与计算机工程系)、Bhuvana Ramabhadran 博士(美国谷歌研究中心)、Mathew Magimai Doss 博士(瑞士马蒂尼 IDIAP 研究所)、Chng Eng Siong 教授(博士)(新加坡南洋理工大学)、Srikanth Madikeri 教授(博士)(瑞士苏黎世大学)。此外,我们还有 Bayya Yegnanarayana 教授(博士)(IIIT,海得拉巴)、CV Jawahar 教授(博士)(IIIT,海得拉巴)、Sriram Ganapathy 教授(博士)(IISc,班加罗尔)、Preethi Jyothi 教授(博士)(IIT 孟买)、Aparna Walanj 博士(Kokilaben Dhirubhai Ambani)孟买医院和研究中心)、Samudravajaya 教授(博士)(吉隆坡大学)和 Hemant A. Patil 教授(博士)(DA-IICT,甘地讷格尔)。在 INTERSPEECH 2018 的推动下,在暑期学校,我们组织了行业观点讲座,邀请了行业资深人士参加,他们包括 Tara N. Sainath 博士(谷歌研究院,美国)、Sunayana Sitaram 博士(微软研究实验室,班加罗尔)、Harish Arsikere 博士(亚马逊,班加罗尔)、Hardik B. Sailor 博士(信息通信研究所 (I2R),A*STAR,新加坡)、Vikram C. Mathad 博士(三星研究院,班加罗尔)、Nirmesh J. Shah 博士(索尼研究院,印度)、Sunil Kumar Kopparapu 博士(TCS 创新实验室,孟买)、Amitabh Nag 先生(电子和信息技术部 (MeitY),新德里)、Ajay Rajawat 先生(电子和信息技术部 (MeitY),新德里)、Dipesh K. Singh 先生(Augnito,孟买)、Gauri Prajapati 女士(微软研究院,班加罗尔)。如果没有潜在赞助商的慷慨资助,此类活动就无法举行。在这方面,我们对赞助商表示深切的感谢和赞赏,即 DA-IICT Gandhinagar、谷歌、国际语音通信协会 (ISCA)、印度语音通信协会 (IndSCA)、电子和信息技术部 (MeitY) 和数字印度 Bhashini 部门 (BHASHINI),如果没有他们,我们不可能组织这次活动。此外,我们感谢英国谢菲尔德大学的 Phil Green 教授(博士)对我们关于 ISCA 支持 S4P 2024 的提案的宝贵反馈。本次暑期学校吸引了来自世界各地的 95 名参会者,包括研究人员、行业人员、教职员工和学生。我们要诚挚地感谢 DA-IICT 管理部门的大力支持,包括主任 Tathagata Bandyopadhyay 教授(博士)、执行注册官 Siddharth Swaminarayan 先生、人力资源主管 Krutika Raval 女士以及所有行政人员。此外,我们还要感谢 Vikram Vij 博士,他推荐 Vikram CM 博士作为三星班加罗尔研发机构语音智能小组的特邀演讲嘉宾。此外,我们还要感谢吉隆坡大学维杰瓦达分校和海得拉巴校区的大力支持,以及一些赞助员工参加此次活动的初创公司。组委会成员希望参会人员和受邀演讲者在甘地讷格尔度过难忘的经历和愉快的时光,并希望你们将来继续访问 DA-IICT 并参加此类 ISCA 支持的活动。