详细内容或原文请订阅后点击阅览
您可以使用自监督语音特征删除用于说话人识别的下游模型吗?
在说话人验证模型中,自监督特征通常代替滤波器组特征。但是,这些模型最初设计为将滤波器组作为输入,因此,在自监督特征上训练它们假设两种特征类型都需要相同数量的学习才能完成任务。在这项工作中,我们观察到预先训练的自监督语音特征固有地包含下游说话人验证任务所需的信息,因此,我们可以在不牺牲性能的情况下简化下游模型。为此,我们重新审视…
来源:Apple机器学习研究自我监督的功能通常用于扬声器验证模型中的滤镜银行功能。但是,这些模型最初被设计为摄入过滤器银行作为输入,因此,在自我监督的功能上训练它们,假设两种功能类型都需要与任务相同的学习量。在这项工作中,我们观察到,预先训练的自我监督的语音特征固有地包含了下游扬声器验证任务所需的信息,因此,我们可以在不牺牲性能的情况下简化下游模型。为此,我们使用自我监督的功能重新访问下游模型,以供扬声器验证。我们表明,我们可以简化模型,以减少97.51%的参数,同时达到29.93%的出色表现。因此,我们表明,与基线相比,简化的下游模型更有效地数据效率 - 它仅使用60%的培训数据就能达到更好的性能。