详细内容或原文请订阅后点击阅览
使用 torch 进行简单的音频分类
本文将 Daniel Falbel 关于“简单音频分类”的文章从 TensorFlow/Keras 翻译成 torch/torchaudio。
来源:RStudio AI博客本文将 Daniel Falbel 的《简单音频分类》文章从 tensorflow/keras 翻译到 torch/torchaudio。主要目的是介绍 torchaudio 并说明其对 torch 生态系统的贡献。在这里,我们重点介绍一个流行的数据集,即音频加载器和频谱图转换器。一个有趣的副产品是 torch 和 tensorflow 之间的并行,有时显示差异,有时显示它们之间的相似之处。
Daniel Falbel “简单音频分类”tensorflow/keras
torch/torchaudio
torch
下载和导入
torchaudio 内置了 Speechcommand_dataset。它默认过滤掉 background_noise,并让我们在版本 v0.01 和 v0.02 之间进行选择。
speechcommand_dataset
v0.01
v0.02
# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <-speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹:_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10]
# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <- Speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹:_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10]
# 在此处设置现有文件夹以缓存数据集
# 在此处设置现有文件夹以缓存数据集
DATASETS_PATH <- "~/datasets/"
DATASETS_PATH
<-
"~/datasets/"
# 1.4GB 下载
# 1.4GB 下载
df <- 语音命令数据集(
df
<-
语音命令数据集
(
root = DATASETS_PATH,
=
DATASETS_PATH
url = " peech_commands_v0.01",
=
"speech_commands_v0.01"
download = TRUE
=
TRUE
)
)
# 期望文件夹: _background_noise_
# 期望文件夹:_background_noise_
df$EXCEPT_FOLDER
df
$
EXCEPT_FOLDER
# [1] "_background_noise_"
# [1] "_background_noise_"
长度(df)
长度
(
df
)