探索语音基础模型的蒙版预训练中的预测目标
语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……
来源:Apple机器学习研究语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律学会的目标进行预训练的模型,该目标学习适用于与说话者相关的任务的代表,而预训练的目标是捕获语音学的目标学习适用于与内容相关的任务的表示形式。此外,预测目标在其捕获的细节水平上可能有所不同。预先训练的模型通过编码细粒度特征的目标进行了训练,在诸如DeNoising等任务上表现更好,而预先训练的目标是针对高级抽象的目标,对于与内容相关的任务更有效。尽管预测目标很重要,但影响它们的设计选择尚未得到彻底研究。这项工作探讨了设计选择及其对下游任务性能的影响。我们的结果表明,休伯特的常用设计选择可能是次优的。我们提出了创建更有信息预测目标的方法,并通过改进各种下游任务来证明其有效性。