详细内容或原文请订阅后点击阅览
使用 SAM 优化深度学习模型
深入探讨锐度感知最小化 (SAM) 算法以及它如何提高现代深度学习模型的通用性使用 SAM 优化深度学习模型一文首先出现在《走向数据科学》上。
来源:走向数据科学:过度参数化、泛化性和 SAM
现代深度学习 ——尤其是在计算机视觉和自然语言处理领域—— 的巨大成功建立在“过度参数化”模型之上:具有足够多参数的模型可以完美地记住训练数据。从功能上讲,当模型可以轻松实现近乎完美的训练精度(接近 100%)且给定任务的训练损失接近于零时,该模型可以被诊断为过度参数化。
然而,这种模型的有用性取决于它在保留的测试数据上是否表现良好,这些测试数据取自与训练集相同的分布,但在训练期间看不见。这个属性被称为“泛化性”——“模型在新例子上保持性能的能力”——它对于任何深度学习模型的实用性都是至关重要的。
经典机器学习理论告诉我们,过度参数化的模型会发生灾难性的过度拟合,因此泛化能力很差。然而,过去十年最令人惊讶的发现之一是此类模型通常具有非常好的泛化能力。
这种高度违反直觉的现象已经在一系列论文中进行了研究,首先是 Belkin 等人(2018)和 Nakkiran 等人(2019)的开创性工作,这些论文证明了泛化性存在“双下降”曲线:随着模型大小的增加,泛化首先恶化(正如经典理论预测的那样),然后再次改善超过临界阈值 ——只要模型使用适当的优化方法进行训练。
图 1 显示了双下降曲线的动画。 y 轴绘制测试误差 — 泛化能力的度量,其中较低的误差表示更好的泛化能力 — ,而 x 轴显示模型参数的数量。正如预期的那样,随着模型大小的增加,训练误差(蓝色虚线)迅速接近零。
