使用 torch 进行简单的音频分类

本文将 Daniel Falbel 关于“简单音频分类”的文章从 TensorFlow/Keras 翻译成 torch/torchaudio。

来源:RStudio AI博客

本文将 Daniel Falbel 的《简单音频分类》文章从 tensorflow/keras 翻译到 torch/torchaudio。主要目的是介绍 torchaudio 并说明其对 torch 生态系统的贡献。在这里,我们重点介绍一个流行的数据集,即音频加载器和频谱图转换器。一个有趣的副产品是 torch 和 tensorflow 之间的并行,有时显示差异,有时显示它们之间的相似之处。

Daniel Falbel “简单音频分类” tensorflow/keras torch/torchaudio torch

下载和导入

torchaudio 内置了 Speechcommand_dataset。它默认过滤掉 background_noise,并让我们在版本 v0.01 和 v0.02 之间进行选择。

speechcommand_dataset v0.01 v0.02
# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <-speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹:_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10]
# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <- Speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹:_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10] # 在此处设置现有文件夹以缓存数据集 # 在此处设置现有文件夹以缓存数据集 DATASETS_PATH <- "~/datasets/" DATASETS_PATH <- "~/datasets/" # 1.4GB 下载 # 1.4GB 下载 df <- 语音命令数据集( df <- 语音命令数据集 ( root = DATASETS_PATH, = DATASETS_PATH url = " peech_commands_v0.01", = "speech_commands_v0.01" download = TRUE = TRUE ) ) # 期望文件夹: _background_noise_ # 期望文件夹:_background_noise_ df$EXCEPT_FOLDER df $ EXCEPT_FOLDER # [1] "_background_noise_" # [1] "_background_noise_" 长度(df) 长度 ( df )