详细内容或原文请订阅后点击阅览
顺序拟合:神经网络谱偏差的不同视角
傅里叶分析遗漏了什么后序贯拟合:神经网络谱偏差的不同视角首先出现在《走向数据科学》上。
来源:走向数据科学作者:Conor Rowan 和 Finn Murphy-Blanchard
简介
对于图像分类 [1]、自治 [2] 和语言建模 [3] 等复杂任务,神经网络非常擅长根据数据拟合高维非线性函数。事实上,神经网络具有如此强大的表征能力,可以在具有随机类别标签的图像上实现零训练误差,这意味着训练数据中不存在可供网络利用的结构[4]。尽管具有这种灵活性,神经网络模型类似乎为许多现实世界的任务提供了有用的归纳偏差,因为神经网络通常比其他模型类型更好地泛化到看不见的测试数据[5]。然而,神经网络的回归有一个严重的缺点,在文献中被称为“谱偏差”。
谱偏差于 2019 年流行,表明神经网络适合从低频到高频的回归目标 [6]。如图 1 所示,神经网络首先学习函数的低频内容,然后细化拟合以捕获较高频率。按照本文献的标准,我们理解回归目标的“频率内容”是由其傅立叶变换提供的。
由于网络按照频率递增的顺序拟合目标函数,因此学习高频函数通常相当缓慢,需要大量的训练 epoch。随后的工作证实了网络在拟合高频函数时面临的困难,并为这种有趣的现象提供了解释。一些作者通过研究流行激活函数(例如 ReLU、双曲正切、S 型函数等)的傅里叶谱来解释谱偏差,并指出它们的谱在高频下快速衰减,因此网络本质上偏向于学习低频 [7,8]。
