wav2vec关键词检索结果

利用视听数据来减少自我监管的语音模型中的多语言差距

Leveraging Audio-Visual Data to Reduce the Multilingual Gap in Self-Supervised Speech Models

自学学习(SSL)在语音表示学习方面取得了重大进步。 WAV2VEC 2.0和Hubert等模型已经实现了最先进的结果,诸如语音识别之类的任务,尤其是在单语言环境中。但是,多语言SSL模型倾向于在每种语言上表现不佳,尤其是在具有双语设置等语言的多语言场景中。在这项工作中,我们通过将有限的视觉接地引入双语语音SSL模型来研究一种新的方法来减少这种性能差距。我们的…

基金会模型隐藏表示从听诊估算的心率估计

Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

听诊,尤其是心脏声音,是一种提供必不可少的生命体征信息的无侵蚀性技术。非常肯定地,已经提出了自我监督的声学代表模型(FMS),以提供基于洞察力的奥斯科群体基于Acouttics的生命体征。但是,已经探索了这些预训练的FM表示中的听诊的程度。在这项工作中,使用公开可用的Phonocardioram(PCG)数据集和心率(HR)估计模型,我们对六个声学代表FMS进行了层次调查:Hubert:hubert,wav2vec2…