Loading...
机构名称:
¥ 1.0

随机梯度下降(SGD)在实践中表现出强大的算法正则化效率,该算法在现代机器学习方法的概括中起着重要作用。在这项工作中,我们试图在线性回归的更简单设置(包括众多和参数化的政权)中理解这些问题,我们的目标是对(未注册)平均SGD与Ridge Regres-Sion的显式正规化提供(未注册的)平均SGD的隐性正规化比较。对于一系列最小二乘问题实例(在高维度中是自然的),我们显示:(1)对于每个问题实例和eviry Ridge参数((未进行定制)SGD),当在对数上提供的样品提供的样本比提供给山脊算法更糟糕的ridge songe(提供的常量)的样本(概括)不变的步骤(概括了SGD的常数)(概括) (2)相反,存在最佳调整的山脊回归需要的样本比SGD更多的样本以具有相同的概括性能。总的来说,我们的结果表明,到对数因素,SGD的概括性能总是不比Ridge回归的多种过度参数化的问题差,实际上,对于某些问题实例来说可能会更好。更普遍地,我们的结果表明,即使在更简单(过度参数化)凸设置中,算法正则化如何产生重要的后果。

至少有sgd的隐式正规化的好处...

至少有sgd的隐式正规化的好处...PDF文件第1页

至少有sgd的隐式正规化的好处...PDF文件第2页

至少有sgd的隐式正规化的好处...PDF文件第3页

至少有sgd的隐式正规化的好处...PDF文件第4页

至少有sgd的隐式正规化的好处...PDF文件第5页