摘要 - 这项工作的目的是通过利用视频中音频和视觉流的自然共发生来研究跨模式自我监管的预训练对语音重新构造的影响。我们提出的LIPSOUND2由编码器 - 二次结构和位置意识到的注意机制组成,以将面部图像序列映射到MEL尺度频谱图,而无需任何人类注释。提出的LIPSOUND2模型是在〜2400-h多语言(例如英语和德语)音频数据(Voxceleb2)上首次预先训练。为了验证所提出的方法的普遍性,我们随后在域特异性数据集(网格和TCD-TIMIT)上进行了预训练的模型,以进行英语语音重建,并与依赖于讲话者依赖于依赖于讲话者的依赖于讲话者的言语质量和清晰度相比,对语音质量和清晰度的改善显着提高。除了英语外,我们还对中国普通话唇读(CMLR)数据集进行了中文语音重建,以验证对可转移性的影响。最后,我们通过在预先训练的语音识别系统上培养生成的音频并在英语和中文基准数据集上实现状态性能来训练级联的唇读(视频对文本)系统。
我们为虚拟现实(VR)开发了基于超声波的无声语音界面。提出越来越多的定制设备来增强VR的沉浸和体验,我们的系统可用于提高用户与系统之间的交互能力,同时保留使用各种CUS tomized设备并避免传统语音识别的局限性的可能性。通过使用超声波的频道估计技术,我们可以得出用户嘴唇的运动特征,这些动作特征可用于微调现有的语音识别模型,并通过大量的开源语音数据集进行增强。更重要的是,我们使用语音界面来指导新用户的CUS tomized模型的初始化,以便他们可以轻松地访问我们的系统。已经进行了两阶段的实验,结果表明我们的系统可以达到90。8%命令级准确性和1。句子级准确性中的3%单词误差。