使用 torch 进行音频分类

学习如何使用 torch 对语音进行分类,利用领域知识和深度学习。这篇文章是即将由 CRC Press 出版的《使用 R torch 进行深度学习和科学计算》一书中相应章节的精简版。

来源:RStudio AI博客

主题变奏

使用 Keras 进行简单的音频分类,使用 Keras 进行音频分类:仔细研究非深度学习部分,使用 torch 进行简单的音频分类:不,这不是本博客上第一篇介绍使用深度学习进行语音分类的文章。其中两篇(“应用”文章)分享了一般设置、所采用的深度学习架构类型和使用的数据集。第三篇,共同之处在于对所涉及的思想和概念感兴趣。每篇帖子都有不同的重点——你应该读这篇吗?

使用 Keras 进行简单的音频分类 使用 Keras 进行音频分类:仔细研究非深度学习部分 使用 torch 进行简单的音频分类

好吧,当然我不能说“不”——更重要的是,在这里,您有 CRC Press 即将出版的书籍《使用 R torch 进行深度学习和科学计算》中关于此主题的章节的缩写和浓缩版本。与之前使用 torch 的帖子(由 torchaudio 的创建者和维护者 Athos Damiani 撰写)相比,torch 生态系统取得了重大进展,最终结果是代码变得容易得多(尤其是在模型训练部分)。话虽如此,让我们结束序言,开始正题吧!

使用 R torch 进行深度学习和科学计算 torch torch torchaudio torch

检查数据

我们使用 torchaudio 附带的语音命令数据集 (Warden (2018))。该数据集包含由不同说话者发出的 30 个不同的单音节或双音节单词的录音。总共有大约 65,000 个音频文件。我们的任务是仅从音频中预测 30 个可能的单词中的哪一个被发音。

语音命令 Warden (2018) Warden 2018 torchaudio torchaudio
library(torch)library(torchaudio)library(luz)ds <- voicecommand_dataset( root = "~/.torch-datasets", url = " voice_commands_v0.01", download = TRUE)
库(火炬) ( 火炬 火炬