傅里叶变换如何将声音转换为频率

直观、直观的指南,帮助您理解数学的真正作用——从绕线机到频谱图《傅里叶变换如何将声音转换为频率》一文首先出现在《走向数据科学》上。

来源:走向数据科学

为什么这件作品存在

— 更像是基于我从中学到的知识及其在声音频率分析中的应用的直觉作品。这里的目的是建立关于傅里叶变换如何帮助我们从时域特征获得频域特征的直觉。我们不会陷入繁重的数学和推导;相反,我们将尝试简化复杂方程所传达的含义。

在我们讨论傅立叶变换之前,您应该对数字声音的存储方式有基本的了解 - 特别是采样和量化。让我在这里快速介绍一下,以便我们达成共识。

现实世界中的声音是连续波——气压随时间平稳变化。但计算机无法存储连续的东西。他们需要数字、离散值。为了以数字方式存储声音,我们做了两件事。

首先,采样——我们定期拍摄声波振幅的“快照”。每秒有多少快照?这就是采样率。 CD 品质的音频每秒拍摄 44,100 个快照 (44.1 kHz)。对于 ML 管道中的语音,每秒 16,000 次 (16 kHz) 是常见的,并且基本上足够了。我广泛处理过 16 kHz 语音数据,它几乎捕获了对语音重要的所有内容。关键思想是我们将平滑的连续波转换为一系列离散的时间点。

其次,量化——每个快照需要记录那一刻的波有多大,精度有多少。这是位深度。对于 16 位音频,每个幅度值可以是 65,536 个可能级别 (216) 之一。这足以让人耳注意到与原始版本的任何差异。如果只有 8 位,则只有 256 个级别 - 音频听起来会粗糙且有颗粒感,因为真实幅度和最接近的可存储值之间的差距(这种差距称为量化误差)变得可听见。

还有一个承诺——这里没有人工智能。让我们开始吧。

设置:我们从什么开始

我们的目标

绕线机