使用 torch 进行简单的音频分类 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 torch 进行简单的音频分类

2021年2月4日 00:00 33 Comments

本文将 Daniel Falbel 关于“简单音频分类”的文章从 TensorFlow/Keras 翻译成 torch/torchaudio。

来源:RStudio AI博客

本文将 Daniel Falbel 的《简单音频分类》文章从 tensorflow/keras 翻译到 torch/torchaudio。主要目的是介绍 torchaudio 并说明其对 torch 生态系统的贡献。在这里，我们重点介绍一个流行的数据集，即音频加载器和频谱图转换器。一个有趣的副产品是 torch 和 tensorflow 之间的并行，有时显示差异，有时显示它们之间的相似之处。

Daniel Falbel “简单音频分类” tensorflow/keras torch/torchaudio torch

下载和导入

torchaudio 内置了 Speechcommand_dataset。它默认过滤掉 background_noise，并让我们在版本 v0.01 和 v0.02 之间进行选择。

speechcommand_dataset v0.01 v0.02

# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <-speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹：_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10]

# 在此处设置现有文件夹以缓存数据集DATASETS_PATH <- "~/datasets/"# 1.4GB downloaddf <- Speechcommand_dataset( root = DATASETS_PATH, url = "speech_commands_v0.01", download = TRUE)# 期望文件夹：_background_noise_df$EXCEPT_FOLDER# [1] "_background_noise_"# 音频文件数量length(df)# [1] 64721# 样本sample <- df[1]sample$waveform[, 1:10]

# 在此处设置现有文件夹以缓存数据集 # 在此处设置现有文件夹以缓存数据集 DATASETS_PATH <- "~/datasets/" DATASETS_PATH <- "~/datasets/" # 1.4GB 下载 # 1.4GB 下载 df <- 语音命令数据集( df <- 语音命令数据集 ( root = DATASETS_PATH, = DATASETS_PATH url = " peech_commands_v0.01", = "speech_commands_v0.01" download = TRUE = TRUE ) ) # 期望文件夹： _background_noise_ # 期望文件夹：_background_noise_ df$EXCEPT_FOLDER df $ EXCEPT_FOLDER # [1] "_background_noise_" # [1] "_background_noise_" 长度(df) 长度 ( df )

默认介绍音频缓存数据语音 v0.01 background 显示选择 datasets 音频文件分类 noise DATASETS PATH 导入文件夹 df 1.4

使用 torch 进行简单的音频分类

下载和导入

其他外部链接

Tags

XiaoMi-AI