Data-Centric Lessons To Improve Speech-Language Pretraining
口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于三个......