对哪个模型进行哪个评估?语音模型评估的分类法

语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类法定义了三个正交轴:正在测量的评估方面、尝试任务所需的模型能力以及执行任务或协议要求......

来源:Apple机器学习研究

语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类定义了三个正交轴:正在测量的评估方面、尝试该任务所需的模型功能以及执行该任务所需的任务或协议要求。我们沿着这些轴对一系列现有的评估和基准进行分类,涵盖表示学习、语音生成和交互式对话等领域。通过将每个评估映射到模型所公开的功能(例如,语音生成、实时处理)及其方法要求(例如,微调数据、人类判断),分类法提供了一个原则框架,使模型与合适的评估方法保持一致。它还揭示了系统性差距,例如韵律、交互或推理的有限覆盖,突出了未来基准设计的优先事项。总的来说,这项工作为语音模型的选择、解释和扩展评估提供了概念基础和实践指南。