自 2019 年以来,INTERSPEECH 首次以纯面对面的形式重返舞台。COVID 教会了我们很多关于虚拟和混合格式的利弊。这些论点在去年的 INTERSPEECH 会议上进行了讨论。普遍的看法是,混合格式无法取代面对面的会面,而面对面的会面是参加科学活动的最重要原因之一。特别是在国际环境中,参与者来自世界各地,有限的虚拟演示和讨论时间段只能低调地替代此类会面。反过来,如果要组织整个会议并为混合出席提供技术支持,出席费用将变得高得令人望而却步。因此,我们决定恢复面对面的形式,将虚拟演示形式保留给有特殊(健康或签证相关)限制的科学家。在我看来,这不会标志着 INTERSPEECH 格式发展的终结,因为气候变化要求我们更加密切地控制我们的环境足迹;我希望我们能看到其他创新来帮助我们解决人类最重要的问题。
对想象语音的解码EEG信号是由于数据的高维质和较低的信噪比,这是一项挑战任务。近年来,降解扩散概率模型(DDPM)已成为各种领域中表示学习的承诺方法。我们的研究提出了一种新的方法,用于使用DDPMS和一个有条件的自动代码器来解码EEG信号,以进行想象的语音。结果表明,与传统的机器学习技术和基线模型相比,差异可以显着提高对想象语音的EEG信号的准确性。我们的发现表明,DDPM可以成为脑电信号解码的有效工具,并具有潜在的暗示,以开发脑部计算机界面,从而通过想象的语音使通信能够进行通信。索引术语:无声沟通,语音识别,电子脑摄影,想象的语音,脑部计算机界面
最近的研究表明,可以使用语音刺激和神经反应的匹配-不匹配分类来分析人类语音理解的潜在神经机制。然而,此类研究都是针对固定持续时间段进行的,而没有考虑到大脑对语音的离散处理。在这项工作中,我们确定词边界信息通过将脑电图与语音输入联系起来,在句子处理中起着重要作用。我们使用卷积层网络处理语音和脑电图信号。然后,对表示执行基于词边界的平均池化,并使用循环层合并词间上下文。实验表明,在公开的语音脑电图数据集上,建模准确度可以显著提高(匹配-不匹配分类准确度)至 93%,而之前的努力在这个任务中实现了 65-75% 的准确度。索引词:语音脑电图匹配不匹配任务、听觉神经科学、词分割、语音理解。
