Loading...
机构名称:
¥ 2.0

在几项经验研究中,已经报道了随机梯度降低(SGD)中的重尾现象。以前的作品中的实验证据表明,尾巴的重度与SGD的概括行为之间存在很强的相互作用。从理论上讲,为了解决这一经验现象,几项作品做出了强有力的拓扑和统计假设,以将概括误差与沉重的尾巴联系起来。最近,已经证明了新的概括范围,这表明了概括误差和重型尾巴之间的非单调关系,这与报道的经验观察者更相关。尽管可以使用重尾随机微分方程(SDE)对SGD进行建模,但这些界限不需要有条件的拓扑假设,但它们只能应用于简单的二次问题。在本文中,我们在这一研究方面构建,并为更通用的目标功能开发了一般的界限,其中也包括非凸功能。我们的方法是基于重尾sdes及其离散化的范围瓦斯汀稳定性范围,然后我们将其转换为概括界。我们的结果不需要任何非平凡的假设;然而,由于损失功能的一般性,他们对经验观察的启示更加明显。

具有一般损失功能的重尾SGD算法稳定性

具有一般损失功能的重尾SGD算法稳定性PDF文件第1页

具有一般损失功能的重尾SGD算法稳定性PDF文件第2页

具有一般损失功能的重尾SGD算法稳定性PDF文件第3页

具有一般损失功能的重尾SGD算法稳定性PDF文件第4页

具有一般损失功能的重尾SGD算法稳定性PDF文件第5页

相关文件推荐

2025 年
¥1.0