使用 torch 进行音频分类 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 torch 进行音频分类

2022年10月6日 00:00 33 Comments

学习如何使用 torch 对语音进行分类，利用领域知识和深度学习。这篇文章是即将由 CRC Press 出版的《使用 R torch 进行深度学习和科学计算》一书中相应章节的精简版。

来源:RStudio AI博客

主题变奏

使用 Keras 进行简单的音频分类，使用 Keras 进行音频分类：仔细研究非深度学习部分，使用 torch 进行简单的音频分类：不，这不是本博客上第一篇介绍使用深度学习进行语音分类的文章。其中两篇（“应用”文章）分享了一般设置、所采用的深度学习架构类型和使用的数据集。第三篇，共同之处在于对所涉及的思想和概念感兴趣。每篇帖子都有不同的重点——你应该读这篇吗？

使用 Keras 进行简单的音频分类使用 Keras 进行音频分类：仔细研究非深度学习部分使用 torch 进行简单的音频分类

好吧，当然我不能说“不”——更重要的是，在这里，您有 CRC Press 即将出版的书籍《使用 R torch 进行深度学习和科学计算》中关于此主题的章节的缩写和浓缩版本。与之前使用 torch 的帖子（由 torchaudio 的创建者和维护者 Athos Damiani 撰写）相比，torch 生态系统取得了重大进展，最终结果是代码变得容易得多（尤其是在模型训练部分）。话虽如此，让我们结束序言，开始正题吧！

使用 R torch 进行深度学习和科学计算 torch torch torchaudio torch

检查数据

我们使用 torchaudio 附带的语音命令数据集 (Warden (2018))。该数据集包含由不同说话者发出的 30 个不同的单音节或双音节单词的录音。总共有大约 65,000 个音频文件。我们的任务是仅从音频中预测 30 个可能的单词中的哪一个被发音。

语音命令 Warden (2018) Warden 2018 torchaudio torchaudio

library(torch)library(torchaudio)library(luz)ds <- voicecommand_dataset( root = "~/.torch-datasets", url = " voice_commands_v0.01", download = TRUE)

库(火炬) 库库 ( 火炬火炬

数据集部分 torch 深度音频 Keras 简单的学习进行使用概念分类 torchaudio 火炬说话