利用视听数据来减少自我监管的语音模型中的多语言差距

自学学习(SSL)在语音表示学习方面取得了重大进步。 WAV2VEC 2.0和Hubert等模型已经实现了最先进的结果,诸如语音识别之类的任务,尤其是在单语言环境中。但是,多语言SSL模型倾向于在每种语言上表现不佳,尤其是在具有双语设置等语言的多语言场景中。在这项工作中,我们通过将有限的视觉接地引入双语语音SSL模型来研究一种新的方法来减少这种性能差距。我们的…

来源:Apple机器学习研究

自学学习(SSL)在语音表示学习方面取得了重大进步。 WAV2VEC 2.0和Hubert等模型已经实现了最先进的结果,诸如语音识别之类的任务,尤其是在单语言环境中。但是,多语言SSL模型倾向于在每种语言上表现不佳,尤其是在具有双语设置等语言的多语言场景中。在这项工作中,我们通过将有限的视觉接地引入双语语音SSL模型来研究一种新的方法来减少这种性能差距。我们的结果表明,视觉接地使单语和双语模型都受益,后者尤其明显增长,从而将零声音歧视上的多语言性能差距从纯音频模型的31.5%降低到接地的8.04%。

    †Tampere University **在Apple
  • †坦佩雷大学
  • **在Apple