Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?
在说话人验证模型中,自监督特征通常代替滤波器组特征。但是,这些模型最初设计为将滤波器组作为输入,因此,在自监督特征上训练它们假设两种特征类型都需要相同数量的学习才能完成任务。在这项工作中,我们观察到预先训练的自监督语音特征固有地包含下游说话人验证任务所需的信息,因此,我们可以在不牺牲性能的情况下简化下游模型。为此,我们重新审视…