机构名称:
¥ 2.0
随机近端梯度方法是对广泛使用的随机梯度下降(SGD)方法的强大概括,并且在机器学习中发现了许多应用。然而,众所周知,该方法无法在随机噪声很大的非convex设置中收敛(即仅使用小批量或有限批量时)。在本文中,我们专注于带有polyak动量的随机近端梯度方法。我们证明,无论批处理大小如何,这种方法都达到了非凸复合综合优化问题的最佳收敛速率。此外,我们严格地分析了复合优化设置中polyak动量的方差降低效果,并且我们显示该方法还会在近端步骤仅可无精性地求解时收敛。最后,我们提供数值实验来验证我们的理论结果。