以数据为中心的课程来改进语音语言预训练

口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于三个......

来源:Apple机器学习研究

口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于语音语言预训练数据的三个基本研究问题:(1)如何处理原始网络爬虫音频内容以进行语音文本预训练,(2)如何构建合成预训练数据集以增强网络爬虫数据,以及(3)如何将(文本,音频)片段交织到训练序列中。我们应用以受控数据为中心的消融中的见解来预训练 3.8B 参数 SpeechLM(称为 SpeLangy),其性能比模型大 3 倍,绝对性能提高 10.2%。我们希望我们的研究结果能够突显有效数据管理对语音语言预训练的影响,并指导未来 SpeechLM 中以数据为中心的探索。

  • † 剑桥大学
  • ‡ 图宾根大学