详细内容或原文请订阅后点击阅览
使用 Keras 进行简单的音频分类
在本教程中,我们将构建一个深度学习模型来对单词进行分类。我们将使用语音命令数据集,该数据集包含 65,000 个一秒钟的音频文件,其中人们说了 30 个不同的单词。
来源:RStudio AI博客简介
在本教程中,我们将构建一个深度学习模型来对单词进行分类。我们将使用 tfdatasets 来处理数据 IO 和预处理,并使用 Keras 来构建和训练模型。
tfdatasets Keras我们将使用语音命令数据集,该数据集由 65,000 个一秒钟的音频文件组成,其中人们说了 30 个不同的单词。每个文件包含一个口语英语单词。该数据集由 Google 在 CC 许可下发布。
语音命令数据集我们的模型是 TensorFlow 简单音频识别教程的 Keras 端口,而该教程又受到用于小空间关键字识别的卷积神经网络的启发。语音识别任务还有其他方法,例如循环神经网络、扩张(空洞)卷积或从类间示例中学习以进行深度声音识别。
简单音频识别的 TensorFlow 教程 简单音频识别 用于小规模关键字识别的卷积神经网络 用于小规模关键字识别的卷积神经网络 循环神经网络 扩张(空洞)卷积 从类间示例中学习以实现深度声音识别我们将在此实现的模型不是音频识别系统的最新技术,音频识别系统要复杂得多,但训练起来相对简单且快速。此外,我们还展示了如何有效地使用 tfdatasets 来预处理和提供数据。
tfdatasets音频表示
许多深度学习模型都是端到端的,即我们让模型直接从原始数据中学习有用的表示。然而,音频数据增长非常快 - 每秒 16,000 个样本,在许多时间尺度上具有非常丰富的结构。为了避免处理原始波形数据,研究人员通常使用某种特征工程。
每个声波都可以用其频谱表示,并且可以使用快速傅里叶变换 (FFT) 进行数字计算。
快速傅里叶变换 (FFT) https://commons.wikimedia.org/w/index.php?curid=64473578 频谱图 频谱图 此处 此链接