详细内容或原文请订阅后点击阅览
W2v-bert:结合对比学习和用于自监督语音预训练的掩蔽语言建模
受掩蔽语言建模 (MLM) 在预训练自然语言处理模型中的成功启发,开发人员提出了 w2v-BERT,探索 MLM 用于自监督语音表示学习。
来源:QudataW2V-BERT:结合对比学习和掩蔽语言建模进行自监督语音预训练
受掩蔽语言建模 (MLM) 在预训练自然语言处理模型中的成功启发,开发人员提出了 w2v-BERT,探索 MLM 在自监督语音表征学习中的应用。
w2v-BERT 是一个结合对比学习和 MLM 的框架,前者训练模型将输入的连续语音信号离散化为一组有限的判别性语音标记,后者训练模型通过解决消耗离散化标记的掩蔽预测任务来学习情境化语音表征。
与现有的基于 MLM 的语音预训练框架(例如依赖于迭代重新聚类和重新训练过程的 HuBERT 或连接两个单独训练的模块的 vq-wav2vec)相比,w2v-BERT 可以通过同时解决两个自监督任务(对比任务和 MLM)以端到端方式进行优化。
实验表明,当使用 Libri-Light~60k 语料库作为无监督数据时,w2v-BERT 在 LibriSpeech 基准上与当前最先进的预训练模型相比取得了有竞争力的结果。
特别是,与基于一致性的 wav2vec~2.0 和 HuBERT 等已发布的模型相比,所表示的模型在测试清洁和测试其他子集上显示出 5% 到 10% 的相对 WER 减少。当应用于 Google 的语音搜索流量数据集时,w2v-BERT 的表现比我们内部基于一致性的 wav2vec~2.0 相对高出 30% 以上。
您可以在此处查看完整文章
此处YouTube 上还有一个教程视频。
视频