缩小法学硕士文本和语音理解之间的差距

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……

来源:Apple机器学习研究

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖于文本语料库的大规模语音合成,这种合成成本高昂并且严重依赖于合成数据,要么依赖于不可再现的大规模专有语音数据集。因此,仍然需要更高效的数据替代方案来缩小文本-语音理解差距。在这项工作中,我们分析了由两个因素驱动的差距:(i)适应过程中忘记文本功能,以及(ii)语音和文本之间的跨模式错位。基于此分析,我们引入了 SALAD——通过主动选择和跨模态蒸馏进行学习的样本高效对齐——它将跨模态蒸馏与目标合成数据相结合,以改善对齐,同时减少遗忘。应用于 3B 和 7B LLM 时,SALAD 通过跨知识、语言理解和推理等广泛领域基准的强大开放权重模型实现了具有竞争力的表现,同时使用公共语料库中少一个数量级的语音数据进行训练。

  • † 土伦大学、艾克斯马赛大学、CNRS、LIS