使用等级自动评估自我监督的语音模型

这项研究使用嵌入式等级探讨了通过自我监督学习(SSL)训练的通用语音编码器的无监督评估度量。传统上,评估这些编码器的性能是资源密集的,需要从下游任务中标记的数据。受视觉域的启发,嵌入等级显示了评估图像编码器的希望,而无需对标记的下游数据进行调整,因此考虑到信号的时间性质,研究了其在语音域中的适用性。这些发现表明等级与下游相关……

来源:Apple机器学习研究

这项研究使用嵌入式等级探讨了通过自我监督学习(SSL)训练的通用语音编码器的无监督评估度量。传统上,评估这些编码器的性能是资源密集的,需要从下游任务中标记的数据。受视觉域的启发,嵌入等级显示了评估图像编码器的希望,而无需对标记的下游数据进行调整,因此考虑到信号的时间性质,研究了其在语音域中的适用性。研究结果表明,等级与各种下游任务以及在内部和室外场景中编码层中的下游性能相关。但是,对于特定的下游任务,排名不能可靠地预测最佳表现层,因为较低的层可以胜过较高级别的层。尽管有这一限制,但结果表明,嵌入等级可能是监视SSL语音模型中培训进度的有价值的工具,提供了传统评估方法的资源替代替代方案。